在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

清華大學研發(fā) LLM4VG 基準:用于評估 LLM 視頻時序定位性能

2023/12/29 14:54:37 來源:IT之家 作者:故淵 責編:故淵

IT之家 12 月 29 日消息,大語言模型(LLM)的觸角已經(jīng)從單純的自然語言處理,擴展到文本、音頻、視頻等多模態(tài)領(lǐng)域,而其中一項關(guān)鍵就是視頻時序定位(Video Grounding,VG)。

VG 任務(wù)的目的基于給定查詢(一句描述),然后在目標視頻段中定位起始和結(jié)束時間,核心挑戰(zhàn)在于時間邊界定位的精度。

清華大學研究團隊近日推出了“LLM4VG”基準,這是一個專門設(shè)計用于評估 LLM 在 VG 任務(wù)中的性能。

此基準考慮了兩種主要策略:第一種涉及直接在文本視頻數(shù)據(jù)集(VidLLM)上訓練的視頻 LLM,第二種是結(jié)合傳統(tǒng)的 LLM 與預(yù)訓練的視覺模型。

在第一種策略中,VidLLM 直接處理視頻內(nèi)容和 VG 任務(wù)指令,根據(jù)其對文本-視頻的訓練輸出預(yù)測。

第二種策略更為復(fù)雜,涉及 LLM 和視覺描述模型。這些模型生成與 VG 任務(wù)指令集成的視頻內(nèi)容的文本描述,通過精心設(shè)計的提示。

這些提示經(jīng)過專門設(shè)計,可以有效地將 VG 的指令與給定的視覺描述結(jié)合起來,從而讓 LLM 能夠處理和理解有關(guān)任務(wù)的視頻內(nèi)容。

據(jù)觀察,VidLLM 盡管直接在視頻內(nèi)容上進行訓練,但在實現(xiàn)令人滿意的 VG 性能方面仍然存在很大差距。這一發(fā)現(xiàn)強調(diào)了在訓練中納入更多與時間相關(guān)的視頻任務(wù)以提高性能的必要性。

而第二種策略優(yōu)于 VidLLM,為未來的研究指明了一個有希望的方向。該策略主要限制于視覺模型的局限性和提示詞的設(shè)計,因此能夠生成詳細且準確的視頻描述后,更精細的圖形模型可以大幅提高 LLM 的 VG 性能。

總之,該研究對 LLM 在 VG 任務(wù)中的應(yīng)用進行了開創(chuàng)性的評估,強調(diào)了在模型訓練和提示設(shè)計中需要更復(fù)雜的方法。

IT之家附上論文參考地址:https://arxiv.org/pdf/2312.14206.pdf

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,清華,LLM

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知