英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題

2024/9/21 11:53:13 來(lái)源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 9 月 21 日消息，科技媒體 marktechpost 昨日（9 月 20 日）發(fā)布博文，報(bào)道了英偉達(dá)（Nvidia）最新發(fā)布的論文，介紹了多模態(tài)大語(yǔ)言模型系列 NVLM 1.0。

多模態(tài)大型語(yǔ)言模型（MLLM）

多模態(tài)大型語(yǔ)言模型（MLLM）所創(chuàng)建的 AI 系統(tǒng)，能夠無(wú)縫解讀文本和視覺(jué)數(shù)據(jù)等，彌合自然語(yǔ)言理解和視覺(jué)理解之間的差距，讓機(jī)器能夠連貫地處理從文本文檔到圖像等各種形式的輸入。

多模態(tài)大型語(yǔ)言模型在圖像識(shí)別、自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域擁有廣闊應(yīng)用前景，改進(jìn)人工智能整合和處理不同數(shù)據(jù)源的方式，幫助 AI 朝著更復(fù)雜的應(yīng)用方向發(fā)展。

英偉達(dá) NVLM 1.0

NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三種主要架構(gòu)。每個(gè)架構(gòu)都結(jié)合先進(jìn)的多模態(tài)推理功能與高效的文本處理功能，從而解決了以往方法的不足之處。

NVLM 1.0 的一個(gè)顯著特點(diǎn)是在訓(xùn)練過(guò)程中加入了高質(zhì)量純文本監(jiān)督微調(diào)（SFT）數(shù)據(jù)，這使得這些模型在視覺(jué)語(yǔ)言任務(wù)中表現(xiàn)出色的同時(shí)，還能保持甚至提高純文本性能。

研究團(tuán)隊(duì)強(qiáng)調(diào)，他們的方法旨在超越 GPT-4V 等現(xiàn)有專有模型和 InternVL 等開(kāi)放式替代模型。

NVLM 1.0 模型采用混合架構(gòu)來(lái)平衡文本和圖像處理：

NVLM-D：純解碼器模型，以統(tǒng)一的方式處理兩種模式，因此特別擅長(zhǎng)多模式推理任務(wù)。
NVLM-X：采用交叉注意機(jī)制，提高了處理高分辨率圖像時(shí)的計(jì)算效率
NVLM-H：混合了上述兩種架構(gòu)的優(yōu)勢(shì)，在保持文本推理所需的效率的同時(shí)，實(shí)現(xiàn)了更詳細(xì)的圖像理解。

英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題

這些模型結(jié)合了高分辨率照片的動(dòng)態(tài)平鋪技術(shù)，在不犧牲推理能力的情況下顯著提高了 OCR 相關(guān)任務(wù)的性能。

性能

在性能方面，NVLM 1.0 模型在多個(gè)基準(zhǔn)測(cè)試中取得了令人印象深刻的成績(jī)。

英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題

歸功于在訓(xùn)練過(guò)程中集成了高質(zhì)量的文本數(shù)據(jù)集，在 MATH 和 GSM8K 等純文本任務(wù)中，NVLM-D1.0 72B 模型比其純文本骨干提高了 4.3 分。
在視覺(jué)問(wèn)題解答和推理任務(wù)中，這些模型還表現(xiàn)出了強(qiáng)大的視覺(jué)語(yǔ)言性能，在 VQAv2 數(shù)據(jù)集上的準(zhǔn)確率為 93.6%，在 AI2D 上的準(zhǔn)確率為 87.4%。
在 OCR 相關(guān)任務(wù)中，NVLM 模型的表現(xiàn)明顯優(yōu)于現(xiàn)有系統(tǒng)，在 DocVQA 和 ChartQA 數(shù)據(jù)集上的準(zhǔn)確率分別為 87.4% 和 81.7%，突出顯示了其處理復(fù)雜視覺(jué)信息的能力。
NVLM-X 和 NVLM-H 模型也取得了這些成績(jī)，它們?cè)谔幚砀叻直媛蕡D像和多模態(tài)數(shù)據(jù)方面表現(xiàn)出色。

研究的主要發(fā)現(xiàn)之一是，NVLM 模型不僅在視覺(jué)語(yǔ)言任務(wù)中表現(xiàn)出色，而且還保持或提高了純文本性能，這是其他多模態(tài)模型難以達(dá)到的。

英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題

例如，在基于文本的推理任務(wù)（如 MMLU）中，NVLM 模型保持了較高的準(zhǔn)確率，在某些情況下甚至超過(guò)了純文本模型。

英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題

想象一下在自動(dòng)駕駛汽車中的應(yīng)用場(chǎng)景。NVLM 1.0 可以通過(guò)攝像頭實(shí)時(shí)獲取道路信息，并與車輛導(dǎo)航系統(tǒng)進(jìn)行語(yǔ)言溝通。

它不僅能識(shí)別交通標(biāo)志，還能理解復(fù)雜路況下的人類指令，例如“如果前方有施工，請(qǐng)尋找替代路線”。這得益于其強(qiáng)大的視覺(jué)-語(yǔ)言處理能力以及出色的文本推理能力，使得自動(dòng)駕駛更加智能、安全、可靠。

小結(jié)

英偉達(dá)開(kāi)發(fā)的 NVLM 1.0 模型代表了多模態(tài)大型語(yǔ)言模型的重大突破，該模型通過(guò)在多模態(tài)訓(xùn)練中集成高質(zhì)量文本數(shù)據(jù)集，并采用動(dòng)態(tài)平鋪和高分辨率圖像平鋪標(biāo)記等創(chuàng)新架構(gòu)設(shè)計(jì)，解決了在不犧牲性能的前提下平衡文本和圖像處理的關(guān)鍵難題。

NVLM 系列模型不僅在視覺(jué)語(yǔ)言任務(wù)方面超越了領(lǐng)先的專有系統(tǒng)，而且還保持了卓越的純文本推理能力，讓多模態(tài)人工智能系統(tǒng)的發(fā)展又向前邁進(jìn)一大步。

IT之家附上參考地址

This AI Paper by NVIDIA Introduces NVLM 1.0: A Family of Multimodal Large Language Models with Improved Text and Image Processing Capabilities
NVLM: Open Frontier-Class Multimodal LLMs
NVLM: Open Frontier-Class Multimodal LLMs Github

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題

多模態(tài)大型語(yǔ)言模型（MLLM）

英偉達(dá) NVLM 1.0

性能

小結(jié)

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題

多模態(tài)大型語(yǔ)言模型（MLLM）

英偉達(dá) NVLM 1.0

性能

小結(jié)

相關(guān)文章

英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題