華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

量子位 2025/5/19 13:22:36 責(zé)編：汪淼

評(píng)論：

部署超大規(guī)模 MoE 這件事，國(guó)產(chǎn)芯片的推理性能，已經(jīng)再創(chuàng)新高了 —— 不僅是“英偉達(dá)含量為 0”這么簡(jiǎn)單，更是性能全面超越英偉達(dá) Hopper 架構(gòu)！

而做到這一點(diǎn)的，正是華為昇騰；具體而言，共包含兩個(gè)產(chǎn)品：

CloudMatrix 384 超節(jié)點(diǎn)
：部署 DeepSeek V3 / R1，在 50ms 時(shí)延約束下單卡 Decode 吞吐突破 1920 Tokens/s
Atlas 800I A2 推理服務(wù)器
：部署 DeepSeek V3 / R1，在 100ms 時(shí)延約束下單卡吞吐達(dá)到 808 Tokens/s，可支持靈活的分布式部署

之所以能夠這般，是因?yàn)槿A為昇騰所采取的“以數(shù)學(xué)補(bǔ)物理”—— 這種通過(guò)數(shù)學(xué)理論、工具、算法和建模等方式，來(lái)彌補(bǔ)硬件和工藝的局限性，實(shí)現(xiàn)最大化發(fā)揮芯片和系統(tǒng)能力效果。

華為昇騰還不只是“官宣”一下而已，后面更會(huì)是全面開(kāi)源。

不僅已經(jīng)將昇騰在超大規(guī)模 MoE 模型推理部署的技術(shù)報(bào)告分享了出來(lái)，在一個(gè)月時(shí)間內(nèi)，還會(huì)把實(shí)現(xiàn)這些核心技術(shù)的相關(guān)代碼也都會(huì)陸續(xù)開(kāi)源出來(lái)。

那么接下來(lái)，我們就來(lái)深入了解一下華為昇騰背后的技術(shù)實(shí)力。

在華為昇騰上推理 DeepSeek

在深挖華為昇騰背后技術(shù)創(chuàng)新之前，我們且需了解一下為什么要這么做。

從 2017 年 Google 提出的 Transformer 架構(gòu)，到 2025 年 DeepSeek V3 / R1 的爆紅，大語(yǔ)言模型的重心正在從訓(xùn)練開(kāi)發(fā)轉(zhuǎn)向推理應(yīng)用落地。

推理能力不僅是大模型能力的“試金石”，各大企業(yè)已從“拼模型參數(shù)”轉(zhuǎn)向“拼推理效率”：

誰(shuí)能讓大模型在實(shí)際應(yīng)用中跑得更快、更穩(wěn)、更省資源，誰(shuí)就能在商業(yè)化浪潮中搶占先機(jī)。

然而，以 6710 億參數(shù)的 DeepSeek V3 為例，這類超大規(guī)模 MoE 模型雖然強(qiáng)大，卻給硬件帶來(lái)三大“成長(zhǎng)煩惱”：

內(nèi)存壓力山大：一個(gè)模型包含 257 個(gè)專家，每個(gè)專家“體重” 2.5G，普通 64GB 內(nèi)存的 AI 硬件根本“扛不動(dòng)”，必須依賴集群協(xié)作。
通信開(kāi)銷爆炸：專家分布在不同芯片上，數(shù)據(jù)傳輸耗時(shí)甚至超過(guò)計(jì)算時(shí)間，就像團(tuán)隊(duì)成員頻繁開(kāi)會(huì)溝通，效率大打折扣。
架構(gòu)創(chuàng)新的“甜蜜負(fù)擔(dān)”：例如“多頭隱式注意力機(jī)制（MLA）”雖然壓縮了數(shù)據(jù)空間，卻導(dǎo)致中間變量激增，對(duì)芯片的計(jì)算能力提出更高要求。

面對(duì)這些挑戰(zhàn)，華為團(tuán)隊(duì)從算子、模型和框架三方面入手，基于昇騰硬件特性，開(kāi)發(fā)了一整套面向集群的大規(guī)模專家并行解決方案。

在硬件部署上，華為團(tuán)隊(duì)根據(jù)不同硬件配置 ——CloudMatrix 384 超節(jié)點(diǎn)和 Atlas 800I A2 推理服務(wù)器，針對(duì)性地采取了不同的部署優(yōu)化策略。為解耦 Prefill 和 Decode 階段的時(shí)延約束，昇騰采用 PD 分離部署方式。

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

在框架側(cè)，昇騰基于 vLLM 框架，適配 DP 和 EP 等多種并行策略，通過(guò) Prefill 調(diào)度分桶、靈衢互聯(lián)與分層傳輸?shù)燃夹g(shù)來(lái)降低調(diào)度開(kāi)銷，優(yōu)化請(qǐng)求下發(fā)、調(diào)度策略等環(huán)節(jié)，提升系統(tǒng)性能。

在模型方面，昇騰采用 A8W8C16 量化策略，其中 A8W8 使用 INT8，C16 使用 BF16，并針對(duì)不同機(jī)型進(jìn)行差異化部署。

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

針對(duì) CloudMatrix 384 超節(jié)點(diǎn)，其強(qiáng)大的組網(wǎng)能力大幅降低了通信耗時(shí)，釋放了昇騰芯片的算力。

團(tuán)隊(duì)采用大規(guī)模 EP 并行部署，Prefill 使用 16 卡，Decode 使用 144 卡，其中 128 卡部署路由專家，16 卡部署共享專家，MLA 部分采用 DP 部署。

盡管存在時(shí)延約束、帶寬搶占、調(diào)度開(kāi)銷、負(fù)載不均等因素影響，最終在 50ms 時(shí)延下，單卡 decode 吞吐達(dá)到 1920 Token / s。

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

針對(duì)機(jī)群規(guī)模較小但部署更加靈活的 Atlas 800I A2 服務(wù)器，華為團(tuán)隊(duì)采用多節(jié)點(diǎn)互聯(lián)的方式進(jìn)行部署。

作為示例，華為團(tuán)隊(duì)使用 2 機(jī) 16 卡進(jìn)行 Prefill，4 機(jī) 32 卡進(jìn)行 Decode，每卡部署 8 個(gè)路由專家和 1 個(gè)共享專家，MLA 部分采用 DP 并行，并針對(duì)性地使用在真實(shí)負(fù)載下性能更優(yōu)的 AllGather / ReduceScatter 的通信方案。

通過(guò)各種策略優(yōu)化，在 100ms 時(shí)延下，單卡吞吐達(dá)到 808 Tokens / s。

還有更多優(yōu)化技術(shù)

在推理框架優(yōu)化方面，針對(duì)高并發(fā)場(chǎng)景下單點(diǎn) API Server 這一性能瓶頸，華為團(tuán)隊(duì)設(shè)計(jì)了 API Server 橫向擴(kuò)展方案，采用水平擴(kuò)展技術(shù)提升框架的請(qǐng)求響應(yīng)能力，顯著降低用戶請(qǐng)求延遲并提高整體服務(wù)吞吐量（QPS）。

針對(duì) MoE 模型中的負(fù)載不均問(wèn)題，基于動(dòng)態(tài)調(diào)整專家部署與縮小通信域、熱專家冗余部署、實(shí)時(shí)調(diào)度與動(dòng)態(tài)監(jiān)控機(jī)制等核心技術(shù)，降低顯存占用的同時(shí)實(shí)現(xiàn)動(dòng)態(tài)負(fù)載均衡。

在投機(jī)推理技術(shù)的工程化應(yīng)用中，如何將其從小批量低時(shí)延場(chǎng)景擴(kuò)展至高吞吐量場(chǎng)景，是行業(yè)面臨的共性難題。

華為團(tuán)隊(duì)基于昇騰芯片高計(jì)算帶寬比的硬件特性，提出 FusionSpec 投機(jī)推理引擎，針對(duì)性優(yōu)化多 Token 預(yù)測(cè)（MTP）場(chǎng)景下的推理性能：

流程重構(gòu)
：將投機(jī)模型后置於主體模型，直接復(fù)用主體模型的輸出結(jié)果與控制參數(shù)，大幅減少框架耗時(shí)，完美適配參數(shù)-數(shù)據(jù)分離（PD 分離）的分布式部署架構(gòu)；
輕量步間優(yōu)化
：對(duì)投機(jī)推理場(chǎng)景中的框架和算子優(yōu)化實(shí)現(xiàn)了輕量步間準(zhǔn)備，適配多核并行的全異步框架。

在通信優(yōu)化方面，華為昇騰也有三大妙招。

首先，針對(duì)主流張量并行（TP）方案中 AllReduce 通信的固有缺陷（通信次數(shù)多、數(shù)據(jù)量大、冗余計(jì)算顯著），華為團(tuán)隊(duì)推出 FlashComm 通信方案，通過(guò)集合通信邏輯重構(gòu)與算子位置編排，實(shí)現(xiàn)低比特、低維度數(shù)據(jù)通信，在降低通信時(shí)延的同時(shí)消除冗余計(jì)算，最終實(shí)現(xiàn) 25% 通信量的降低和 10% 推理性能的提升。

其次，在 FlashComm 基礎(chǔ)上，團(tuán)隊(duì)進(jìn)一步提出層內(nèi)并行轉(zhuǎn)換方案，針對(duì) Prefill 階段的 MLA 層，通過(guò)張量并行（TP）與數(shù)據(jù)并行（DP）的靈活轉(zhuǎn)換，消除節(jié)點(diǎn)內(nèi)卡間求和操作，并利用網(wǎng)絡(luò)低維特性與量化技術(shù)壓縮通信數(shù)據(jù)量，顯著降低跨卡通信時(shí)延，為大模型分布式推理提供更高效的通信支撐。

第三，通信方面的優(yōu)化還有一個(gè)并發(fā)機(jī)制的深度挖掘，包括：

計(jì)算通信并發(fā)
：通過(guò) Gate 函數(shù)計(jì)算與 AllGather 通信的解耦，結(jié)合共享專家的數(shù)據(jù)并行（DP）策略，利用昇騰多流機(jī)制實(shí)現(xiàn)計(jì)算與通信的并發(fā)執(zhí)行，最大化硬件利用率；
通信通信并發(fā)
：針對(duì) DeepSeek 模型的量化場(chǎng)景，將激活值與 scale 的傳輸任務(wù)并行處理，在不增加帶寬壓力的前提下掩蓋小數(shù)據(jù)量通信的啟動(dòng)開(kāi)銷；
通信和權(quán)重預(yù)并發(fā)
：利用通信階段 HBM 帶寬低占用特性，提前將后續(xù)算子權(quán)重預(yù)取至緩存，降低計(jì)算階段的數(shù)據(jù)搬運(yùn)開(kāi)銷，實(shí)測(cè) MLA 層計(jì)算性能提升 10%。

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

最后，就是在算子方面的優(yōu)化了。華為團(tuán)隊(duì)通過(guò)以數(shù)學(xué)補(bǔ)物理，發(fā)展了一系列的優(yōu)化技術(shù)。

針對(duì) MLA 算子中間變量膨脹與計(jì)算量激增的挑戰(zhàn)，團(tuán)隊(duì)開(kāi)展硬件親和性優(yōu)化：

算法重構(gòu)：提出 AMLA 算法，通過(guò)二進(jìn)制編碼與存內(nèi)計(jì)算，將乘性計(jì)算轉(zhuǎn)換為加性等價(jià)形式，直接在全局內(nèi)存完成輸出更新，減少數(shù)據(jù)搬運(yùn)耗時(shí)；
緩存策略：通過(guò) L1 / L2 緩存精細(xì)化管理與 K-buffer 流水排布，提升緩存命中率與計(jì)算效率，實(shí)現(xiàn)張量計(jì)算與向量計(jì)算的相互掩蓋；
前序算子融合：在 Prefill 與 Decode 階段分別采用雙流并發(fā)與算子融合技術(shù)，結(jié)合權(quán)重預(yù)取、分塊策略及定制指令集優(yōu)化，構(gòu)建端到端高效計(jì)算鏈路。

MoE 算子方面的優(yōu)化則包括：

通算融合算子：針對(duì) EP 部署模式下 MoE 專家的跨卡調(diào)度難題，設(shè)計(jì) MoeDistributeDispatch / Combine 算子，通過(guò) Token 粒度的流水排布與內(nèi)存語(yǔ)義通信技術(shù)，將通信與計(jì)算并行化，減少卡間同步開(kāi)銷；
SMTurbo-CPP 技術(shù)：針對(duì)小數(shù)據(jù)量通信效率問(wèn)題，通過(guò)讀寫(xiě)混合、聚合流水等硬件并發(fā)技術(shù)，提升 AllToAll (v) 算子的吞吐能力，降低 Dispatch / Combine 場(chǎng)景時(shí)延；
細(xì)粒度分級(jí)流水算法：基于 Atlas 800I A2 組網(wǎng)特性，實(shí)現(xiàn)節(jié)點(diǎn)內(nèi) / 節(jié)點(diǎn)間的集合通信并發(fā)執(zhí)行，大幅提升集群環(huán)境下的帶寬利用率。

性能創(chuàng)新高

在 Decode 性能測(cè)試方面，Atlas 800I A2 所采用的方式是：

序列長(zhǎng)度為 2K 輸入 + 2K 輸出和 1K 輸入 + 2K 輸出兩種情況
在使能 MTP 進(jìn)行推理加速的情況下，由于不同測(cè)試數(shù)據(jù)集和業(yè)務(wù)場(chǎng)景的 MTP 接受率不同，性能測(cè)試結(jié)果會(huì)有比較大的偏差。因此在計(jì)算時(shí)延和吞吐的時(shí)候默認(rèn)按照 70% 接受率來(lái)折算。
TPOT（Decode 平均每 Token 時(shí)延）不超過(guò) 100ms。

具體表現(xiàn)如下所示：

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

在 Prefill 上的測(cè)試方法是，單 batch 輸入序列長(zhǎng)度為 2K / 1K，通過(guò)拼 batch 的方式拼成一共 16K 序列。對(duì)于序列長(zhǎng)度是 2K，共 8 batch 拼成一共 16K 序列的場(chǎng)景，端到端耗時(shí)為 631ms，卡均吞吐為 1622 Tokens / s。

具體表現(xiàn)如下圖所示：

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

在 2025 年 4 月，硅基流動(dòng)聯(lián)合華為云基于 CloudMatrix 384 超節(jié)點(diǎn)昇騰云服務(wù)和高性能推理框架 SiliconLLM，用大規(guī)模專家并行最佳實(shí)踐正式上線 DeepSeek-R1。

該服務(wù)在保證單用戶 20 TPS (等效 50ms 時(shí)延約束) 水平前提下，單卡 Decode 吞吐突破 1920 Tokens / s，可比肩 H100 部署性能。

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

而也正如我們剛才提到的，昇騰在超大規(guī)模 MoE 模型推理部署的技術(shù)報(bào)告分享了出來(lái)了，想要更深入了解的小伙伴，可以在文末鏈接中自取哦。

One More Thing

就在本周，華為昇騰還將舉辦一個(gè)技術(shù)披露周！

大家可以關(guān)注 https://gitcode.com/ascend-tribe/ascend-inference-cluster/ 中每天的上新。

具體詳情放下面嘍，小伙伴們可以蹲一波了~

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

完整技術(shù)報(bào)告：

https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/Overview/%E5%8D%8E%E4%B8%BA%E6%98%87%E8%85%BE%E6%9C%8D%E5%8A%A1%E5%99%A8_DeepSeek_V3_R1_%E6%8E%A8%E7%90%86%E9%83%A8%E7%BD%B2%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5.pdf

技術(shù)博客：

https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/Overview/ascend-inference-cluster-overview.md

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：金磊，原標(biāo)題《華為 + DeepSeek，推理性能創(chuàng)新高！技術(shù)報(bào)告也公布出來(lái)了》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

在華為昇騰上推理 DeepSeek

還有更多優(yōu)化技術(shù)

性能創(chuàng)新高

One More Thing

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布

在華為昇騰上推理 DeepSeek

還有更多優(yōu)化技術(shù)

性能創(chuàng)新高

One More Thing

相關(guān)文章

華為 + DeepSeek 推理性能創(chuàng)新高，技術(shù)報(bào)告公布