蘋果發(fā)表 Manzano：近乎無損融合“看圖”與“繪圖”的多模態(tài) AI 模型

2026/1/15 8:32:49 來源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

感謝IT之家網(wǎng)友對(duì)的時(shí)間點(diǎn) 的線索投遞！

IT之家 1 月 15 日消息，科技媒體 Appleinsider 今天（1 月 15 日）發(fā)布博文，報(bào)道稱蘋果發(fā)表重磅研究論文，詳細(xì)介紹了名為“Manzano”的多模態(tài)模型，融合“視覺理解”與“文本生成圖像”兩大功能。

該模型最大的創(chuàng)新在于“雙修”：它不僅能像人類一樣精準(zhǔn)理解圖像內(nèi)容（視覺理解），還能根據(jù)文本描述生成高質(zhì)量圖片（圖像生成）。

蘋果發(fā)表 Manzano：近乎無損融合“看圖”與“繪圖”的多模態(tài) AI 模型

行業(yè)內(nèi)此前僅有少數(shù)模型能同時(shí)兼顧這兩項(xiàng)任務(wù)，且往往需要在畫質(zhì)與理解力之間做出妥協(xié)，研究人員指出，核心矛盾在于“視覺分詞”的方式不同。

簡(jiǎn)單來說，AI 進(jìn)行“圖像理解”時(shí)喜歡連續(xù)的數(shù)據(jù)流（類似看視頻），而進(jìn)行“圖像生成”時(shí)則更依賴離散的數(shù)據(jù)塊（類似拼圖）。傳統(tǒng)模型強(qiáng)行讓同一個(gè)大腦處理這兩種截然不同的信號(hào)，往往會(huì)導(dǎo)致嚴(yán)重的任務(wù)沖突，要么“看得懂但畫不出”，要么“畫得好但理解偏”。

Manzano 為了解決這一難題，引入了一種創(chuàng)新的三段式架構(gòu)：

首先，它使用“混合視覺分詞器”同時(shí)生成連續(xù)和離散的視覺表示；
接著，利用大語言模型（LLM）預(yù)測(cè)圖像的語義內(nèi)容；
最后，將這些預(yù)測(cè)結(jié)果交給“擴(kuò)散解碼器”進(jìn)行像素級(jí)渲染。

蘋果發(fā)表 Manzano：近乎無損融合“看圖”與“繪圖”的多模態(tài) AI 模型

這種設(shè)計(jì)讓 Manzano 既保留了強(qiáng)大的理解能力，又具備了精細(xì)的繪圖能力，甚至能處理深度估計(jì)、風(fēng)格遷移和圖像修復(fù)等復(fù)雜任務(wù)。

測(cè)試數(shù)據(jù)顯示，Manzano 在處理反直覺、違背物理常識(shí)的復(fù)雜指令時(shí)表現(xiàn)驚人。例如，當(dāng)要求生成“一只鳥在大象下方飛翔”的畫面時(shí)，Manzano 的邏輯準(zhǔn)確性與 OpenAI 的 GPT-4o 以及谷歌的 Nano Banana 模型旗鼓相當(dāng)。

蘋果發(fā)表 Manzano：近乎無損融合“看圖”與“繪圖”的多模態(tài) AI 模型

研究團(tuán)隊(duì)測(cè)試了從 3 億到 300 億（30B）參數(shù)的不同版本，證實(shí)了該架構(gòu)在模型規(guī)模擴(kuò)大時(shí)依然能保持高效的性能提升。

蘋果發(fā)表 Manzano：近乎無損融合“看圖”與“繪圖”的多模態(tài) AI 模型

雖然 Manzano 目前仍處于研究階段，尚未直接應(yīng)用于 iPhone 或 Mac 設(shè)備，但這表明蘋果正在構(gòu)建更強(qiáng)大的底層 AI 能力。

該媒體認(rèn)為這項(xiàng)技術(shù)極有可能會(huì)被整合進(jìn)未來的“圖樂園 Image Playground”功能中，為用戶帶來更智能的修圖體驗(yàn)和更具想象力的畫面生成能力，進(jìn)一步鞏固蘋果在端側(cè) AI 領(lǐng)域的競(jìng)爭(zhēng)力。

IT之家附上參考地址

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

蘋果發(fā)表 Manzano：近乎無損融合“看圖”與“繪圖”的多模態(tài) AI 模型

相關(guān)文章