一圖勝千言,再也不怕視頻會議說不明白了!
最近幾年,「視頻會議」在工作中的占比逐漸增加,廠商也開發(fā)了各種諸如實時字幕等技術(shù)以方便會議中不同語言的人之間交流。
但還有一個痛點,要是對話中提到了一些對方很陌生的名詞,并且很難用語言描述出來,比如食物「壽喜燒」,或是說「上周去了某個公園度假」,很難用語言給對方描述出的美景;甚至是指出「東京位于日本關(guān)東地區(qū)」,需要一張地圖來展示等,如果只用語言可能會讓對方越來越迷茫。

最近,谷歌在人機交互頂級會議 ACM CHI(Conference on Human Factors in Computing Systems)上展示了一個系統(tǒng) Visual Captions,介紹了遠(yuǎn)程會議中的一個全新視覺解決方案,可以在對話背景中生成或檢索圖片以提高對方對復(fù)雜或陌生概念的了解。

論文鏈接:https://research.google/ pubs / pub52074/
代碼鏈接:https://github.com/ google / archat
Visual Captions 系統(tǒng)基于一個微調(diào)后的大型語言模型,可以在開放詞匯的對話中主動推薦相關(guān)的視覺元素,并已融入開源項目 ARChat 中。

在用戶調(diào)研中,研究人員邀請了實驗室內(nèi)的 26 位參與者,與實驗室外的 10 位參與者對系統(tǒng)進行評估,超過 80% 的用戶基本都認(rèn)同 Video Captions 可以在各種場景下能提供有用、有意義的視覺推薦,并可以提升交流體驗。
設(shè)計思路
在開發(fā)之前,研究人員首先邀請了 10 位內(nèi)部參與者,包括軟件工程師、研究人員、UX 設(shè)計師、視覺藝術(shù)家、學(xué)生等技術(shù)與非技術(shù)背景的從業(yè)者,討論對實時視覺增強服務(wù)的特定需求和期望。
兩次會議后,根據(jù)現(xiàn)有的文本轉(zhuǎn)圖像系統(tǒng),確立了預(yù)期原型系統(tǒng)的基本設(shè)計,主要包括八個維度(記為 D1 至 D8)。
D1:時序,視覺增強系統(tǒng)可與對話同步或異步展現(xiàn)
D2:主題,可用于表達(dá)和理解語音內(nèi)容
D3:視覺,可使用廣泛的視覺內(nèi)容、視覺類型和視覺源
D4:規(guī)模,根據(jù)會議規(guī)模的不同,視覺增強效果可能有所不同
D5:空間,視頻會議是在同一地點還是在遠(yuǎn)程設(shè)置中
D6:隱私,這些因素還影響視覺效果是否應(yīng)該私下顯示、在參與者之間共享或向所有人公開
D7:初始狀態(tài),參與者還確定了他們希望在進行對話時與系統(tǒng)交互的不同方式,例如,不同級別的「主動性」,即用戶可以自主確定系統(tǒng)何時介入聊天 D8:交互,參與者設(shè)想了不同的交互方法,例如,使用語音或手勢進行輸入

根據(jù)初步反饋,研究人員設(shè)計了 Video Caption 系統(tǒng),專注于生成語義相關(guān)的視覺內(nèi)容、類型和來源的同步視覺效果。
雖然在探索性會議中的想法大多關(guān)注于一對一遠(yuǎn)程對話的形式,Video Caption 同樣也可以用于一對多的(例如,向觀眾進行演示)和多對多場景(多人會議討論)的部署。
除此之外,最能補充對話的視覺效果在很大程度上取決于討論的上下文,所以需要一個專門制作的訓(xùn)練集。
研究人員收集了 1595 個四元組,包括語言、視覺內(nèi)容、類型、來源,涵蓋了各種上下文場景,包括日常對話、講座、旅行指南等。
比如用戶說「我很想看看!」(I would love to see it!)對應(yīng)于「面部微笑」(face smiling)的視覺內(nèi)容、「表情符號」(emoji)的視覺類型和「公共搜索」(public search)的視覺源。
「她有沒有告訴你我們?nèi)ツ鞲绲氖??」對?yīng)于「來自墨西哥之旅的照片」的視覺內(nèi)容、「照片」的視覺類型以及「個人相冊」的視覺源。
該數(shù)據(jù)集 VC 1.5K 目前已開源。

視覺意圖預(yù)測模型
為了預(yù)測哪些視覺效果可以補充對話,研究人員使用 VC1.5K 數(shù)據(jù)集基于大型語言模型訓(xùn)練了一個視覺意圖預(yù)測模型。
在訓(xùn)練階段,每個視覺意圖解析為「 <Visual Type> of <Visual Content> from <Visual Source> 」的格式。

基于該格式,系統(tǒng)可以處理開放詞匯會話和上下文預(yù)測視覺內(nèi)容、視覺源和視覺類型。

這種方法在實踐中也優(yōu)于基于關(guān)鍵詞的方法,因為后者無法處理開放式詞匯的例子,比如用戶可能會說「你的艾米阿姨將在這個星期六來訪」,沒有匹配到關(guān)鍵詞,也就無法推薦相關(guān)的視覺類型或視覺來源。
研究人員使用 VC1.5K 數(shù)據(jù)集中的 1276 個(80%)樣本來微調(diào)大型語言模型,其余 319 個(20%)示例作為測試數(shù)據(jù),并使用 token 準(zhǔn)確率指標(biāo)來度量微調(diào)模型的性能,即模型正確預(yù)測的樣本中 token 正確的百分比。
最終模型可以實現(xiàn) 97% 的訓(xùn)練 token 準(zhǔn)確率和 87% 的驗證 token 準(zhǔn)確率。
實用性調(diào)研
為了評估訓(xùn)練的視覺字幕模型的實用性,研究團隊邀請了 89 名參與者執(zhí)行 846 項任務(wù),要求對效果進行打分,1 為非常不同意(strongly disagree)、7 為非常同意(strongly agree)。
實驗結(jié)果顯示,大多數(shù)參與者更喜歡在對話中看到視覺效果(Q1),83% 給出了 5-有些同意(somewhat agree)以上的評價。
此外,參與者認(rèn)為顯示的視覺效果是有用的且信息豐富的(Q2),82% 給出了高于 5 分的評價;高質(zhì)量的(Q3),82% 給出了高于 5 分的評價;并與原始語音相關(guān)(Q4,84%)。
參與者還發(fā)現(xiàn)預(yù)測的視覺類型(Q5,87%)和視覺來源(Q6,86%)在相應(yīng)對話的背景下是準(zhǔn)確的。

基于該微調(diào)的視覺意圖預(yù)測模型,研究人員在 ARChat 平臺上開發(fā)了 Visual Captions,可以直接在視頻會議平臺(如 Google Meet)的攝像頭流上添加新的交互式小部件。
在系統(tǒng)工作流程中,Video Captions 可以自動捕獲用戶的語音、檢索最后的句子、每隔 100 毫秒將數(shù)據(jù)輸入到視覺意圖預(yù)測模型中、檢索相關(guān)視覺效果,然后提供推薦的視覺效果。

Visual Captions 在推薦視覺效果時提供三個級別的可選主動性:
自動顯示(高主動性):系統(tǒng)自主搜索并向所有會議參與者公開顯示視覺效果,無需用戶交互。
自動推薦(中等主動性):推薦的視覺效果顯示在私人滾動視圖中,然后用戶點擊一個視覺對象可以進行公開展示;在這種模式下,系統(tǒng)會主動推薦視覺效果,但用戶決定何時顯示以及顯示什么。
按需建議(低主動性):用戶按下空格鍵后,系統(tǒng)才會推薦視覺效果。
研究人員在對照實驗室研究(n = 26)和測試階段部署研究(n = 10)中評估了 Visual Captions 系統(tǒng),參與者發(fā)現(xiàn),實時視覺效果有助于解釋不熟悉的概念、解決語言歧義,并使對話更具吸引力,從而促進了現(xiàn)場對話。

與會者還報告了在現(xiàn)場進行交互中的不同的系統(tǒng)偏好,即在不同的會議場景中使用不同程度的 VC 主動性
參考資料:
https://ai.googleblog.com/2023/06/visual-captions-using-large-language.html
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。