Meta Token-Shuffle 登場：自回歸模型突破瓶頸，可 AI 生成 2048×2048 分辨率圖像

2025/4/26 14:06:10 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 4 月 26 日消息，科技媒體 marktechpost 昨日（4 月 25 日）發(fā)布博文，報道稱 Meta AI 創(chuàng)新推出 Token-Shuffle，目標解決自回歸（Autoregressive，AR）模型在生成高分辨率圖像方面的擴展難題。

IT之家注：自回歸模型是一種用于時間序列分析的統(tǒng)計方法，主要用于預(yù)測數(shù)據(jù)序列中的未來值。該模型的核心思想是當前的值與過去的值之間存在線性關(guān)系，因此可以用變量自身的歷史數(shù)據(jù)來預(yù)測當前或未來的值。

在語言生成方面，自回歸模型大放異彩，近年來也被廣泛探索用于圖像合成，然而在面對高分辨率圖像時，AR 模型遭遇瓶頸。

不同于文本生成僅需少量 token，圖像合成中高分辨率圖片往往需要數(shù)千個 token，計算成本隨之暴增。這讓許多基于 AR 的多模態(tài)模型只能處理低中分辨率圖像，限制了其在精細圖像生成中的應(yīng)用。

盡管擴散模型（Diffusion Models）在高分辨率上表現(xiàn)強勁，但其復(fù)雜的采樣過程和較慢的推理速度也存在局限。

Token-Shuffle 的核心機制與優(yōu)勢

Meta AI 推出的 Token-Shuffle 方法直擊 token 效率問題。它通過識別多模態(tài)大語言模型（MLLMs）中視覺詞匯的維度冗余，提出了一種創(chuàng)新策略：在 Transformer 處理前，將空間上相鄰的視覺 token 沿通道維度合并，推理后再恢復(fù)原始空間結(jié)構(gòu)。

這種 token 融合機制大幅降低了計算成本，在保持視覺質(zhì)量的同時，讓自回歸模型能夠高效處理最高 2048×2048 分辨率的圖像。Token-Shuffle 無需改動 Transformer 架構(gòu)，也無需額外預(yù)訓(xùn)練編碼器，操作簡單且兼容性強。

Meta Token-Shuffle 登場：自回歸模型突破瓶頸，可 AI 生成 2048×2048 分辨率圖像

具體而言，Token-Shuffle 包含 token-shuffle 和 token-unshuffle 兩個步驟。輸入準備階段，空間相鄰 token 通過 MLP（多層感知機）壓縮為單個 token，減少 token 數(shù)量。

以窗口大小 s 為例，token 數(shù)量可減少 s2 分之一，顯著降低 Transformer 的計算量（FLOPs）。此外，該方法還引入了針對自回歸生成的 classifier-free guidance（CFG）調(diào)度器，動態(tài)調(diào)整引導(dǎo)強度，優(yōu)化文本-圖像對齊效果。

實驗成果與未來潛力

Token-Shuffle 在 GenAI-Bench 和 GenEval 兩大基準測試中展現(xiàn)了強大實力。在 GenAI-Bench 上，基于 2.7B 參數(shù)的 LLaMA 模型，Token-Shuffle 在“困難”提示下取得 VQAScore 0.77，超越其他 AR 模型如 LlamaGen（+0.18）和擴散模型 LDM（+0.15）。

Meta Token-Shuffle 登場：自回歸模型突破瓶頸，可 AI 生成 2048×2048 分辨率圖像

在 GenEval 中，其綜合得分為 0.62，為 AR 模型樹立了新標桿。用戶評估也顯示，盡管在邏輯一致性上略遜于擴散模型，但 Token-Shuffle 在文本對齊、圖像質(zhì)量上優(yōu)于 LlamaGen 和 Lumina-mGPT。

IT之家附上參考地址

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Meta Token-Shuffle 登場：自回歸模型突破瓶頸，可 AI 生成 2048×2048 分辨率圖像

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Meta Token-Shuffle 登場：自回歸模型突破瓶頸，可 AI 生成 2048×2048 分辨率圖像

相關(guān)文章

Meta Token-Shuffle 登場：自回歸模型突破瓶頸，可 AI 生成 2048×2048 分辨率圖像