再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

新智元 2023/6/13 14:30:09 責(zé)編：夢澤

評論：

一圖勝千言，再也不怕視頻會議說不明白了！

最近幾年，「視頻會議」在工作中的占比逐漸增加，廠商也開發(fā)了各種諸如實時字幕等技術(shù)以方便會議中不同語言的人之間交流。

但還有一個痛點，要是對話中提到了一些對方很陌生的名詞，并且很難用語言描述出來，比如食物「壽喜燒」，或是說「上周去了某個公園度假」，很難用語言給對方描述出的美景；甚至是指出「東京位于日本關(guān)東地區(qū)」，需要一張地圖來展示等，如果只用語言可能會讓對方越來越迷茫。

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

最近，谷歌在人機交互頂級會議 ACM CHI（Conference on Human Factors in Computing Systems）上展示了一個系統(tǒng) Visual Captions，介紹了遠(yuǎn)程會議中的一個全新視覺解決方案，可以在對話背景中生成或檢索圖片以提高對方對復(fù)雜或陌生概念的了解。

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

論文鏈接：https://research.google/ pubs / pub52074/

代碼鏈接：https://github.com/ google / archat

Visual Captions 系統(tǒng)基于一個微調(diào)后的大型語言模型，可以在開放詞匯的對話中主動推薦相關(guān)的視覺元素，并已融入開源項目 ARChat 中。

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

在用戶調(diào)研中，研究人員邀請了實驗室內(nèi)的 26 位參與者，與實驗室外的 10 位參與者對系統(tǒng)進行評估，超過 80% 的用戶基本都認(rèn)同 Video Captions 可以在各種場景下能提供有用、有意義的視覺推薦，并可以提升交流體驗。

設(shè)計思路

在開發(fā)之前，研究人員首先邀請了 10 位內(nèi)部參與者，包括軟件工程師、研究人員、UX 設(shè)計師、視覺藝術(shù)家、學(xué)生等技術(shù)與非技術(shù)背景的從業(yè)者，討論對實時視覺增強服務(wù)的特定需求和期望。

兩次會議后，根據(jù)現(xiàn)有的文本轉(zhuǎn)圖像系統(tǒng)，確立了預(yù)期原型系統(tǒng)的基本設(shè)計，主要包括八個維度（記為 D1 至 D8）。

D1：時序，視覺增強系統(tǒng)可與對話同步或異步展現(xiàn)

D2：主題，可用于表達(dá)和理解語音內(nèi)容

D3：視覺，可使用廣泛的視覺內(nèi)容、視覺類型和視覺源

D4：規(guī)模，根據(jù)會議規(guī)模的不同，視覺增強效果可能有所不同

D5：空間，視頻會議是在同一地點還是在遠(yuǎn)程設(shè)置中

D6：隱私，這些因素還影響視覺效果是否應(yīng)該私下顯示、在參與者之間共享或向所有人公開

D7：初始狀態(tài)，參與者還確定了他們希望在進行對話時與系統(tǒng)交互的不同方式，例如，不同級別的「主動性」，即用戶可以自主確定系統(tǒng)何時介入聊天 D8：交互，參與者設(shè)想了不同的交互方法，例如，使用語音或手勢進行輸入

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

用動態(tài)的視覺效果增強語言交流的設(shè)計空間

根據(jù)初步反饋，研究人員設(shè)計了 Video Caption 系統(tǒng)，專注于生成語義相關(guān)的視覺內(nèi)容、類型和來源的同步視覺效果。

雖然在探索性會議中的想法大多關(guān)注于一對一遠(yuǎn)程對話的形式，Video Caption 同樣也可以用于一對多的（例如，向觀眾進行演示）和多對多場景（多人會議討論）的部署。

除此之外，最能補充對話的視覺效果在很大程度上取決于討論的上下文，所以需要一個專門制作的訓(xùn)練集。

研究人員收集了 1595 個四元組，包括語言、視覺內(nèi)容、類型、來源，涵蓋了各種上下文場景，包括日常對話、講座、旅行指南等。

比如用戶說「我很想看看！」（I would love to see it!）對應(yīng)于「面部微笑」（face smiling）的視覺內(nèi)容、「表情符號」（emoji）的視覺類型和「公共搜索」（public search）的視覺源。

「她有沒有告訴你我們?nèi)ツ鞲绲氖?？」對?yīng)于「來自墨西哥之旅的照片」的視覺內(nèi)容、「照片」的視覺類型以及「個人相冊」的視覺源。

該數(shù)據(jù)集 VC 1.5K 目前已開源。

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

數(shù)據(jù)鏈接：https://github.com/ google / archat / tree / main / dataset

視覺意圖預(yù)測模型

為了預(yù)測哪些視覺效果可以補充對話，研究人員使用 VC1.5K 數(shù)據(jù)集基于大型語言模型訓(xùn)練了一個視覺意圖預(yù)測模型。

在訓(xùn)練階段，每個視覺意圖解析為「 <Visual Type> of <Visual Content> from <Visual Source> 」的格式。

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

基于該格式，系統(tǒng)可以處理開放詞匯會話和上下文預(yù)測視覺內(nèi)容、視覺源和視覺類型。

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

這種方法在實踐中也優(yōu)于基于關(guān)鍵詞的方法，因為后者無法處理開放式詞匯的例子，比如用戶可能會說「你的艾米阿姨將在這個星期六來訪」，沒有匹配到關(guān)鍵詞，也就無法推薦相關(guān)的視覺類型或視覺來源。

研究人員使用 VC1.5K 數(shù)據(jù)集中的 1276 個（80%）樣本來微調(diào)大型語言模型，其余 319 個（20%）示例作為測試數(shù)據(jù)，并使用 token 準(zhǔn)確率指標(biāo)來度量微調(diào)模型的性能，即模型正確預(yù)測的樣本中 token 正確的百分比。

最終模型可以實現(xiàn) 97% 的訓(xùn)練 token 準(zhǔn)確率和 87% 的驗證 token 準(zhǔn)確率。

實用性調(diào)研

為了評估訓(xùn)練的視覺字幕模型的實用性，研究團隊邀請了 89 名參與者執(zhí)行 846 項任務(wù)，要求對效果進行打分，1 為非常不同意（strongly disagree）、7 為非常同意（strongly agree）。

實驗結(jié)果顯示，大多數(shù)參與者更喜歡在對話中看到視覺效果（Q1），83% 給出了 5-有些同意（somewhat agree）以上的評價。

此外，參與者認(rèn)為顯示的視覺效果是有用的且信息豐富的（Q2），82% 給出了高于 5 分的評價；高質(zhì)量的（Q3），82% 給出了高于 5 分的評價；并與原始語音相關(guān)（Q4，84%）。

參與者還發(fā)現(xiàn)預(yù)測的視覺類型（Q5，87%）和視覺來源（Q6，86%）在相應(yīng)對話的背景下是準(zhǔn)確的。

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

研究參與者對可視化預(yù)測模型的技術(shù)評價結(jié)果進行評分

基于該微調(diào)的視覺意圖預(yù)測模型，研究人員在 ARChat 平臺上開發(fā)了 Visual Captions，可以直接在視頻會議平臺（如 Google Meet）的攝像頭流上添加新的交互式小部件。

在系統(tǒng)工作流程中，Video Captions 可以自動捕獲用戶的語音、檢索最后的句子、每隔 100 毫秒將數(shù)據(jù)輸入到視覺意圖預(yù)測模型中、檢索相關(guān)視覺效果，然后提供推薦的視覺效果。

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

Visual Captions 的系統(tǒng)工作流

Visual Captions 在推薦視覺效果時提供三個級別的可選主動性：

自動顯示（高主動性）：系統(tǒng)自主搜索并向所有會議參與者公開顯示視覺效果，無需用戶交互。

自動推薦（中等主動性）：推薦的視覺效果顯示在私人滾動視圖中，然后用戶點擊一個視覺對象可以進行公開展示；在這種模式下，系統(tǒng)會主動推薦視覺效果，但用戶決定何時顯示以及顯示什么。

按需建議（低主動性）：用戶按下空格鍵后，系統(tǒng)才會推薦視覺效果。

研究人員在對照實驗室研究（n = 26）和測試階段部署研究（n = 10）中評估了 Visual Captions 系統(tǒng)，參與者發(fā)現(xiàn)，實時視覺效果有助于解釋不熟悉的概念、解決語言歧義，并使對話更具吸引力，從而促進了現(xiàn)場對話。

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

參與者的 task load 指數(shù)和 Likert scale 評級，包括無 VC、以及三個不同主動性的 VC

與會者還報告了在現(xiàn)場進行交互中的不同的系統(tǒng)偏好，即在不同的會議場景中使用不同程度的 VC 主動性

參考資料：

https://ai.googleblog.com/2023/06/visual-captions-using-large-language.html

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

再也不怕「視頻會議」尬住了, 谷歌 CHI 頂會發(fā)布新神器 Visual Captions：讓圖片做你的字幕助手

設(shè)計思路

視覺意圖預(yù)測模型

實用性調(diào)研

相關(guān)文章