在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Meta Token-Shuffle 登場:自回歸模型突破瓶頸,可 AI 生成 2048×2048 分辨率圖像

2025/4/26 14:06:10 來源:IT之家 作者:故淵 責編:故淵

IT之家 4 月 26 日消息,科技媒體 marktechpost 昨日(4 月 25 日)發(fā)布博文,報道稱 Meta AI 創(chuàng)新推出 Token-Shuffle,目標解決自回歸(Autoregressive,AR)模型在生成高分辨率圖像方面的擴展難題。

IT之家注:自回歸模型是一種用于時間序列分析的統(tǒng)計方法,主要用于預(yù)測數(shù)據(jù)序列中的未來值。該模型的核心思想是當前的值與過去的值之間存在線性關(guān)系,因此可以用變量自身的歷史數(shù)據(jù)來預(yù)測當前或未來的值。

在語言生成方面,自回歸模型大放異彩,近年來也被廣泛探索用于圖像合成,然而在面對高分辨率圖像時,AR 模型遭遇瓶頸。

不同于文本生成僅需少量 token,圖像合成中高分辨率圖片往往需要數(shù)千個 token,計算成本隨之暴增。這讓許多基于 AR 的多模態(tài)模型只能處理低中分辨率圖像,限制了其在精細圖像生成中的應(yīng)用。

盡管擴散模型(Diffusion Models)在高分辨率上表現(xiàn)強勁,但其復(fù)雜的采樣過程和較慢的推理速度也存在局限。

Token-Shuffle 的核心機制與優(yōu)勢

Meta AI 推出的 Token-Shuffle 方法直擊 token 效率問題。它通過識別多模態(tài)大語言模型(MLLMs)中視覺詞匯的維度冗余,提出了一種創(chuàng)新策略:在 Transformer 處理前,將空間上相鄰的視覺 token 沿通道維度合并,推理后再恢復(fù)原始空間結(jié)構(gòu)。

這種 token 融合機制大幅降低了計算成本,在保持視覺質(zhì)量的同時,讓自回歸模型能夠高效處理最高 2048×2048 分辨率的圖像。Token-Shuffle 無需改動 Transformer 架構(gòu),也無需額外預(yù)訓(xùn)練編碼器,操作簡單且兼容性強。

具體而言,Token-Shuffle 包含 token-shuffle 和 token-unshuffle 兩個步驟。輸入準備階段,空間相鄰 token 通過 MLP(多層感知機)壓縮為單個 token,減少 token 數(shù)量。

以窗口大小 s 為例,token 數(shù)量可減少 s2 分之一,顯著降低 Transformer 的計算量(FLOPs)。此外,該方法還引入了針對自回歸生成的 classifier-free guidance(CFG)調(diào)度器,動態(tài)調(diào)整引導(dǎo)強度,優(yōu)化文本-圖像對齊效果。

實驗成果與未來潛力

Token-Shuffle 在 GenAI-Bench 和 GenEval 兩大基準測試中展現(xiàn)了強大實力。在 GenAI-Bench 上,基于 2.7B 參數(shù)的 LLaMA 模型,Token-Shuffle 在“困難”提示下取得 VQAScore 0.77,超越其他 AR 模型如 LlamaGen(+0.18)和擴散模型 LDM(+0.15)。

在 GenEval 中,其綜合得分為 0.62,為 AR 模型樹立了新標桿。用戶評估也顯示,盡管在邏輯一致性上略遜于擴散模型,但 Token-Shuffle 在文本對齊、圖像質(zhì)量上優(yōu)于 LlamaGen 和 Lumina-mGPT。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:MetaAI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知