IT之家 11 月 8 日消息,今天,阿里巴巴達摩院公布多模態(tài)大模型 M6 最新進展,其參數(shù)已從萬億躍遷至 10 萬億,成為全球最大的 AI 預(yù)訓(xùn)練模型。
M6 是達摩院研發(fā)的通用性人工智能大模型,擁有多模態(tài)、多任務(wù)能力,尤其擅長設(shè)計、寫作、問答,在電商、制造業(yè)、文學(xué)藝術(shù)、科學(xué)研究等領(lǐng)域有廣泛應(yīng)用前景。
與傳統(tǒng) AI 相比,大模型擁有成百上千倍“神經(jīng)元”數(shù)量,認知和創(chuàng)造能力也更勝一籌,被普遍認為是未來的“基礎(chǔ)模型”。但大模型的算力成本相當(dāng)高昂,訓(xùn)練 1750 億參數(shù)語言大模型 GPT-3 所需能耗,相當(dāng)于汽車行駛地月往返距離。
今年 5 月,通過專家并行策略及優(yōu)化技術(shù),達摩院 M6 團隊將萬億模型能耗降低超八成、效率提升近 11 倍。
10 月,M6 再次突破業(yè)界極限,使用 512 GPU 在 10 天內(nèi)即訓(xùn)練出具有可用水平的 10 萬億模型。相比去年發(fā)布的大模型 GPT-3,M6 實現(xiàn)同等參數(shù)規(guī)模,能耗僅為其 1%。

▲ 將 10 萬億參數(shù)放進 512 張 GPU
模型擴展到千億及以上參數(shù)的超大規(guī)模時,將很難放在一臺機器上。
為了幫助多模態(tài)預(yù)訓(xùn)練模型進行快速迭代訓(xùn)練,達摩院在阿里云 PAI 自研 Whale 框架上搭建 MoE 模型,并通過更細粒度的 CPU offload 技術(shù),最終實現(xiàn)將 10 萬億參數(shù)放進 512 張 GPU:
自研 Whale 框架:自研 Whale 分布式深度學(xué)習(xí)訓(xùn)練框架,針對數(shù)據(jù)并行、模型并行、流水并行、混合并行等多種并行模型進行了統(tǒng)一架構(gòu)設(shè)計,讓用戶在僅僅添加幾行 API 調(diào)用的情況下就可以實現(xiàn)豐富的分布式并行策略。
MoE 專家并行策略:在 Whale 架構(gòu)中實現(xiàn) Mixture-of-Experts(MoE)專家并行策略,在擴展模型容量、提升模型效果的基礎(chǔ)上,不顯著增加運算 FLOPs(每秒所執(zhí)行的浮點運算次數(shù)),從而實現(xiàn)高效訓(xùn)練大規(guī)模模型的目的。
CPU offload 創(chuàng)新技術(shù):在自研的分布式框架 Whale 中通過更細粒度的 CPU offload,解決了有限資源放下極限規(guī)模的難題,并通過靈活地選擇 offload 的模型層,進一步地提高 GPU 利用率。
此外,針對訓(xùn)練效率問題,M6 團隊設(shè)計了 Pseudo-to-Real(共享解除)機制,即利用訓(xùn)練好的共享參數(shù)模型初始化大模型,讓收斂效率進一步提升 7 倍,解決大模型訓(xùn)練速度慢的問題。
對比不使用該機制,預(yù)訓(xùn)練達到同樣 loss 用時僅需 6%;和此前萬億模型相比,訓(xùn)練樣本量僅需 40%。

作為國內(nèi)首個商業(yè)化落地的多模態(tài)大模型,M6 已在超 40 個場景中應(yīng)用,日調(diào)用量上億。
今年,大模型首次支持雙 11,應(yīng)用包括但不限于:
M6 在犀牛智造為品牌設(shè)計的服飾已在淘寶上線;
憑借流暢的寫作能力,M6 正為天貓?zhí)摂M主播創(chuàng)作劇本;
依靠多模態(tài)理解能力,M6 正在增進淘寶、支付寶等平臺的搜索及內(nèi)容認知精度。

▲ M6 設(shè)計的飛行汽車
未來,M6 將積極探索與科學(xué)應(yīng)用的結(jié)合,通過 AI for science 讓大模型的潛力充分發(fā)揮,并加強 M6 與國產(chǎn)芯片的軟硬一體化研究。
目前,達摩院聯(lián)合阿里云已推出 M6 服務(wù)化平臺(https://m6.aliyun.com),為大模型訓(xùn)練及應(yīng)用提供完備工具,首次讓大模型實現(xiàn)“開箱即用”,算法人員及普通用戶均可方便地使用平臺。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。