在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

全流程昇騰平臺訓練,華為推出準萬億參數(shù)盤古 Ultra MoE 模型

2025/5/30 17:19:55 來源:IT之家 作者:清源 責編:清源
感謝IT之家網(wǎng)友 咩咩洋、HH_KK 的線索投遞!

IT之家 5 月 30 日消息,華為今日推出參數(shù)規(guī)模高達 7180 億的全新模型盤古 Ultra MoE,這是一個全流程在昇騰 AI 計算平臺上訓練的準萬億 MoE 模型。

據(jù)IT之家了解,盤古團隊提出 Depth-Scaled Sandwich-Norm(DSSN)穩(wěn)定架構(gòu)和 TinyInit 小初始化的方法,在昇騰平臺上實現(xiàn)了超過 18TB 數(shù)據(jù)的長期穩(wěn)定訓練。

在訓練方法上,華為團隊首次披露在昇騰 CloudMatrix 384 超節(jié)點上打通大稀疏比 MoE 強化學習(RL)后訓練框架的關(guān)鍵技術(shù),使 RL 后訓練進入超節(jié)點集群時代。

在 5 月初發(fā)布的預訓練系統(tǒng)加速技術(shù)基礎上,在不到一個月的時間內(nèi),華為團隊又完成了一輪迭代升級,包括:適配昇騰硬件的自適應流水掩蓋策略,進一步優(yōu)化算子執(zhí)行序,進一步降低 Host-Bound 以及提升 EP 通信的掩蓋;自適應管理內(nèi)存優(yōu)化策略的開發(fā);數(shù)據(jù)重排實現(xiàn) DP 間 Attention 負載均衡;以及昇騰親和的算子優(yōu)化,這些技術(shù)實現(xiàn)萬卡集群預訓練 MFU 由 30% 大幅提升至 41%。

IT之家附技術(shù)報告:點此前往 及項目文件預覽:點此前往

相關(guān)閱讀:

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:華為昇騰,盤古大模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知