在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

4 款「ChatGPT 搜索」全面對比,斯坦福華人博士純手工標注:新必應(yīng)流暢度最低,近一半句子都沒引用

新智元 2023/4/28 12:56:04 責編:夢澤

 生成式搜索引擎目前還無法取代傳統(tǒng)搜索引擎,句子出處標注太少,引用的精確率也不高。

ChatGPT 發(fā)布后不久,微軟成功上車發(fā)布「新必應(yīng)」,不僅股票大漲,甚至還大有取代谷歌,開啟搜索引擎新時代的架勢。

不過新必應(yīng)真是大型語言模型的正確玩法嗎?生成的答案真的對用戶有用嗎?句子里標的引文可信度有多少?

最近,斯坦福的研究人員從不同的來源收集了大量的用戶查詢,對當下四個大火的生成性搜索引擎,新必應(yīng)(Bing Chat),NeevaAI,perplexity.ai 和 YouChat 進行了人工評估。

論文鏈接:https://arxiv.org/ pdf / 2304.09848.pdf

實驗結(jié)果發(fā)現(xiàn),來自現(xiàn)有生成搜索引擎的回復(fù)流暢且信息量大,但經(jīng)常包含沒有證據(jù)的陳述和不準確的引用。

平均來說,只有 51.5% 的引用可以完全支撐生成的句子,只有 74.5% 的引用可以作為相關(guān)句子的證據(jù)支持。

研究人員認為,對于那些可能成為信息搜尋用戶主要工具的系統(tǒng)來說,這個結(jié)果實在是過低了,特別是考慮到有些句子只是貌似可信的話,生成式搜索引擎仍然需要進一步優(yōu)化。

個人主頁:https://cs.stanford.edu/~nfliu/

第一作者 Nelson Liu 是斯坦福大學自然語言處理組的四年級博士生,導(dǎo)師為 Percy Liang,本科畢業(yè)于華盛頓大學,主要研究方向為構(gòu)建實用的 NLP 系統(tǒng),尤其是用于信息查找的應(yīng)用程序。

別輕信生成式搜索引擎

2023 年 3 月,微軟報告說「大約三分之一的每日預(yù)覽用戶每天都在使用 [Bing] 聊天」,并且 Bing 聊天在其公開預(yù)覽的第一個月提供了 4500 萬次聊天,也就是說,把大型語言模型融合進搜索引擎是非常有市場的,極有可能改變互聯(lián)網(wǎng)的搜索入口。

但目前來看,現(xiàn)有的基于大型語言模型技術(shù)的生成式搜索引擎仍然存在準確率不高的問題,但具體的準確率仍然沒有得到全面評估,進而也無法了解到新型搜索引擎的局限之處。

可驗證性(verifiability)是提升搜索引擎可信度的關(guān)鍵,即為生成答案中的每一句話都提供引文的外部鏈接來作為證據(jù)支撐,可以使用戶更容易驗證答案的準確程度。

研究人員通過收集不同類型、來源的問題,在四個商業(yè)生成式搜索引擎(Bing Chat, NeevaAI, perplexity.ai, YouChat)上進行人工評估。

評估指標主要包括流暢性,即生成的文本是否連貫;有用性,即搜索引擎的回復(fù)對于用戶來說是否有幫助,以及答案中的信息是否能夠解決問題;引用召回,即生成的關(guān)于外部網(wǎng)站的句子中包含引用支持的比例;引用精度,即生成的引用支持其相關(guān)句子的比例。

流暢性(fluency)

同時展示用戶查詢、生成的回復(fù)以及聲明「該回復(fù)是流暢且語義連貫的」,標注人員以五分制 Likert 量表對數(shù)據(jù)進行打分。

有用性(perceived utility)

與流暢性類似,標注人員需要評定他們對「該回復(fù)是對用戶查詢來說是有用且有信息量的 」這一說法的同意程度。

引用召回(citation recall)

引用召回率是指由其相關(guān)引文完全支持的、值得驗證的句子的比例,所以該指標的計算需要確定回復(fù)中值得驗證的句子,以及評估每個值得驗證的句子能夠被相關(guān)引文支持。

在「識別值得驗證的句子」過程中,研究人員認為關(guān)于外部世界的每一個生成的句子都是值得驗證的,即使是那些可能看起來很明顯、微不足道的常識,因為對于某些讀者來說似乎是明顯的「常識」,但其實可能并不正確。

搜索引擎系統(tǒng)的目標應(yīng)該是為所有生成的關(guān)于外部世界的句子提供參考來源,使讀者能夠輕松地驗證生成的回復(fù)中的任何敘述,不能為了簡單而犧牲可驗證性。

所以實際上標注人員對所有生成的句子都進行驗證,除了那些以系統(tǒng)為第一人稱的回復(fù),如「作為一個語言模型,我沒有能力做...」,或是對用戶的提問,如「你想了解更多嗎?」等。

評估「一個值得驗證的陳述是否得到其相關(guān)引文的充分支持」可以基于歸因已識別來源(AIS, attributable to identified sources)評估框架,標注人員進行二元標注,即如果一個普通的聽眾認可「基于引用的網(wǎng)頁,可以得出...」,那引文即可完全支持該回復(fù)。

引用精確率

為了衡量引用的精確率,標注人員需要判斷每個引用是否對其相關(guān)的句子提供了全部、部分或無關(guān)支持。

完全支持(full support):句子中的所有信息都得到了引文的支持。

部分支持(Partial support):句子中的一些信息得到了引文的支持,但其他部分可能存在缺失或矛盾。

無關(guān)支持(No support):如引用的網(wǎng)頁完全不相關(guān)或相互矛盾。

對于有多個相關(guān)引文的句子,還會額外要求標注人員使用 AIS 評估框架判斷所有相關(guān)引文網(wǎng)頁作為一個整體是否為該句子提供了充分的支持(二元判斷)。

實驗結(jié)果

在流暢性和有用性評估中,可以看到各個搜索引擎都能夠生成非常流暢且有用的回復(fù)。

在具體的搜索引擎評估中,可以看到看到 Bing Chat 的流暢性 / 有用性評分最低(4.40/4.34),其次是 NeevaAI(4.43/4.48),perplexity.ai(4.51/4.56),以及 YouChat(4.59/4.62)。

在不同類別的用戶查詢中,可以看到較短的提取性問題通常比長問題要更流暢,通常只回答事實性知識即可;一些有難度的問題通常需要對不同的表格或網(wǎng)頁進行匯總,合成過程會降低整體的流暢性。

在引文評估中,可以看到現(xiàn)有的生成式搜索引擎往往不能全面或正確地引用網(wǎng)頁,平均只有 51.5% 的生成句子得到了引文的完全支持(召回率),只有 74.5% 的引文完全支持其相關(guān)句子(精確度)。

這個數(shù)值來說對于已經(jīng)擁有數(shù)百萬用戶的搜索引擎系統(tǒng)來說是不可接受的,特別是在生成回復(fù)往往信息量比較大的情況下。

并且不同的生成式搜索引擎之間的引文召回率和精確度有很大差異,其中 perplexity.ai 實現(xiàn)了最高的召回率(68.7),而 NeevaAI(67.6)、Bing Chat(58.7)和 YouChat(11.1)較低。

另一方面,Bing Chat 實現(xiàn)了最高的精確度(89.5),其次是 perplexity.ai(72.7)、NeevaAI(72.0)和 YouChat(63.6)

在不同的用戶查詢中,有長答案的 NaturalQuestions 查詢和非 NaturalQuestions 查詢之間的引用召回率差距接近 11%(分別為 58.5 和 47.8);

同樣,有短答案的 NaturalQuestions 查詢和無短答案的 NaturalQuestions 查詢之間的引用召回率差距接近 10%(有短答案的查詢?yōu)?63.4,只有長答案的查詢?yōu)?53.6,而無長或短答案的查詢?yōu)?53.4)。

在沒有網(wǎng)頁支持的問題中,引用率就會較低,例如對開放式的 AllSouls 論文問題進行評估時,生成式搜索引擎在引文召回率方面只有 44.3

參考資料:

  • https://arxiv.org/abs/2304.09848

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知