谷歌推出 DiffusionGemma 文本擴(kuò)散模型：本地 AI 推理速度提升 4 倍

2026/6/11 6:53:45 來源：IT之家作者：故淵責(zé)編：故淵

評論：

感謝IT之家網(wǎng)友烏蠅哥的左手、華南吳彥祖的線索投遞！

IT之家 6 月 11 日消息，谷歌今天（6 月 11 日）發(fā)布公告，宣布推出 DiffusionGemma，是基于文本擴(kuò)散機(jī)制的開放 AI 模型，相比較自回歸模型在本地推理速度上提升了 4 倍。

IT之家注：自回歸模型（Autoregressive Model）是當(dāng)前主流的大語言模型架構(gòu)（如 GPT、Gemini），按照從左到右的順序逐個生成 Tokens。該架構(gòu)在云端批處理場景下效率較高，但在本地推理時受限于內(nèi)存帶寬，存在計算資源浪費問題。

谷歌推出 DiffusionGemma 文本擴(kuò)散模型：本地 AI 推理速度提升 4 倍

而擴(kuò)散模型（Diffusion Model）通過從噪聲中逐步去噪的方式生成輸出。與自回歸模型逐個生成 token 不同，擴(kuò)散模型并行處理所有 token，逐步優(yōu)化整體輸出質(zhì)量，在本地低帶寬計算環(huán)境下具有顯著的推理速度優(yōu)勢。

開源方面，該模型能力與其他 Gemma 4 模型相當(dāng)，但推理效率顯著更高。該模型采用 Apache 2.0 許可證開源，用戶可從 Hugging Face 下載模型權(quán)重。

質(zhì)量方面，模型還支持迭代優(yōu)化，能在生成過程中主動糾正錯誤，輸出更加穩(wěn)定一致。采樣速度達(dá)到 1479 tokens / 秒，開銷僅 0.84 秒，生成效率顯著提升。

性能方面，代碼生成上，LiveCodeBench 達(dá) 30.9%，BigCodeBench 達(dá) 45.4%，HumanEval 達(dá) 89.6%，與 Gemini 2.0 Flash-Lite 互有勝負(fù)。

數(shù)學(xué)能力表現(xiàn)亮眼，AIME 2025 取得 23.3%，超越對比模型的 20.0%，展現(xiàn)出擴(kuò)散架構(gòu)在推理任務(wù)上的潛力。

不過模型在部分基準(zhǔn)上仍存短板?？茖W(xué)推理 GPQA Diamond 僅 40.4%，明顯低于對比模型的 56.5%；推理能力 BIG-Bench Extra Hard 為 15.0%，同樣落后于 21.0%。

谷歌推出 DiffusionGemma 文本擴(kuò)散模型：本地 AI 推理速度提升 4 倍

速度方面，英偉達(dá)在官方博文中指出，該模型的擴(kuò)散設(shè)計，能充分發(fā)揮英偉達(dá) GPU 的 Tensor Core 并行計算能力。

在單塊 H100 GPU 上，DiffusionGemma 達(dá)到每秒 1000 個 token 的生成速度；在 DGX Spark 上為每秒 150 個 token；在 DGX Station 上可達(dá)每秒 2000 個 token，約為同等條件下自回歸模型的 4 倍。

谷歌推出 DiffusionGemma 文本擴(kuò)散模型：本地 AI 推理速度提升 4 倍

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

相關(guān)文章