IT之家 6 月 11 日消息,谷歌今天(6 月 11 日)發(fā)布公告,宣布推出 DiffusionGemma,是基于文本擴(kuò)散機(jī)制的開放 AI 模型,相比較自回歸模型在本地推理速度上提升了 4 倍。
IT之家注:自回歸模型(Autoregressive Model)是當(dāng)前主流的大語言模型架構(gòu)(如 GPT、Gemini),按照從左到右的順序逐個生成 Tokens。該架構(gòu)在云端批處理場景下效率較高,但在本地推理時受限于內(nèi)存帶寬,存在計算資源浪費問題。

而擴(kuò)散模型(Diffusion Model)通過從噪聲中逐步去噪的方式生成輸出。與自回歸模型逐個生成 token 不同,擴(kuò)散模型并行處理所有 token,逐步優(yōu)化整體輸出質(zhì)量,在本地低帶寬計算環(huán)境下具有顯著的推理速度優(yōu)勢。
開源方面,該模型能力與其他 Gemma 4 模型相當(dāng),但推理效率顯著更高。該模型采用 Apache 2.0 許可證開源,用戶可從 Hugging Face 下載模型權(quán)重。
質(zhì)量方面,模型還支持迭代優(yōu)化,能在生成過程中主動糾正錯誤,輸出更加穩(wěn)定一致。采樣速度達(dá)到 1479 tokens / 秒,開銷僅 0.84 秒,生成效率顯著提升。
性能方面,代碼生成上,LiveCodeBench 達(dá) 30.9%,BigCodeBench 達(dá) 45.4%,HumanEval 達(dá) 89.6%,與 Gemini 2.0 Flash-Lite 互有勝負(fù)。
數(shù)學(xué)能力表現(xiàn)亮眼,AIME 2025 取得 23.3%,超越對比模型的 20.0%,展現(xiàn)出擴(kuò)散架構(gòu)在推理任務(wù)上的潛力。
不過模型在部分基準(zhǔn)上仍存短板??茖W(xué)推理 GPQA Diamond 僅 40.4%,明顯低于對比模型的 56.5%;推理能力 BIG-Bench Extra Hard 為 15.0%,同樣落后于 21.0%。

速度方面,英偉達(dá)在官方博文中指出,該模型的擴(kuò)散設(shè)計,能充分發(fā)揮英偉達(dá) GPU 的 Tensor Core 并行計算能力。
在單塊 H100 GPU 上,DiffusionGemma 達(dá)到每秒 1000 個 token 的生成速度;在 DGX Spark 上為每秒 150 個 token;在 DGX Station 上可達(dá)每秒 2000 個 token,約為同等條件下自回歸模型的 4 倍。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。