首頁 > 科學探索>科技前沿

4 款「ChatGPT 搜索」全面對比，斯坦福華人博士純手工標注：新必應(yīng)流暢度最低，近一半句子都沒引用

新智元 2023/4/28 12:56:04 責編：夢澤

評論：

生成式搜索引擎目前還無法取代傳統(tǒng)搜索引擎，句子出處標注太少，引用的精確率也不高。

ChatGPT 發(fā)布后不久，微軟成功上車發(fā)布「新必應(yīng)」，不僅股票大漲，甚至還大有取代谷歌，開啟搜索引擎新時代的架勢。

不過新必應(yīng)真是大型語言模型的正確玩法嗎？生成的答案真的對用戶有用嗎？句子里標的引文可信度有多少？

最近，斯坦福的研究人員從不同的來源收集了大量的用戶查詢，對當下四個大火的生成性搜索引擎，新必應(yīng)（Bing Chat），NeevaAI，perplexity.ai 和 YouChat 進行了人工評估。

4 款「ChatGPT 搜索」全面對比，斯坦福華人博士純手工標注：新必應(yīng)流暢度最低，近一半句子都沒引用

論文鏈接：https://arxiv.org/ pdf / 2304.09848.pdf

實驗結(jié)果發(fā)現(xiàn)，來自現(xiàn)有生成搜索引擎的回復(fù)流暢且信息量大，但經(jīng)常包含沒有證據(jù)的陳述和不準確的引用。

平均來說，只有 51.5% 的引用可以完全支撐生成的句子，只有 74.5% 的引用可以作為相關(guān)句子的證據(jù)支持。

研究人員認為，對于那些可能成為信息搜尋用戶主要工具的系統(tǒng)來說，這個結(jié)果實在是過低了，特別是考慮到有些句子只是貌似可信的話，生成式搜索引擎仍然需要進一步優(yōu)化。

4 款「ChatGPT 搜索」全面對比，斯坦福華人博士純手工標注：新必應(yīng)流暢度最低，近一半句子都沒引用

個人主頁：https://cs.stanford.edu/~nfliu/

第一作者 Nelson Liu 是斯坦福大學自然語言處理組的四年級博士生，導(dǎo)師為 Percy Liang，本科畢業(yè)于華盛頓大學，主要研究方向為構(gòu)建實用的 NLP 系統(tǒng)，尤其是用于信息查找的應(yīng)用程序。

別輕信生成式搜索引擎

2023 年 3 月，微軟報告說「大約三分之一的每日預(yù)覽用戶每天都在使用 [Bing] 聊天」，并且 Bing 聊天在其公開預(yù)覽的第一個月提供了 4500 萬次聊天，也就是說，把大型語言模型融合進搜索引擎是非常有市場的，極有可能改變互聯(lián)網(wǎng)的搜索入口。

4 款「ChatGPT 搜索」全面對比，斯坦福華人博士純手工標注：新必應(yīng)流暢度最低，近一半句子都沒引用

但目前來看，現(xiàn)有的基于大型語言模型技術(shù)的生成式搜索引擎仍然存在準確率不高的問題，但具體的準確率仍然沒有得到全面評估，進而也無法了解到新型搜索引擎的局限之處。

可驗證性（verifiability）是提升搜索引擎可信度的關(guān)鍵，即為生成答案中的每一句話都提供引文的外部鏈接來作為證據(jù)支撐，可以使用戶更容易驗證答案的準確程度。

研究人員通過收集不同類型、來源的問題，在四個商業(yè)生成式搜索引擎（Bing Chat, NeevaAI, perplexity.ai, YouChat）上進行人工評估。

4 款「ChatGPT 搜索」全面對比，斯坦福華人博士純手工標注：新必應(yīng)流暢度最低，近一半句子都沒引用

評估指標主要包括流暢性，即生成的文本是否連貫；有用性，即搜索引擎的回復(fù)對于用戶來說是否有幫助，以及答案中的信息是否能夠解決問題；引用召回，即生成的關(guān)于外部網(wǎng)站的句子中包含引用支持的比例；引用精度，即生成的引用支持其相關(guān)句子的比例。

流暢性（fluency）

同時展示用戶查詢、生成的回復(fù)以及聲明「該回復(fù)是流暢且語義連貫的」，標注人員以五分制 Likert 量表對數(shù)據(jù)進行打分。

4 款「ChatGPT 搜索」全面對比，斯坦福華人博士純手工標注：新必應(yīng)流暢度最低，近一半句子都沒引用

有用性（perceived utility）

與流暢性類似，標注人員需要評定他們對「該回復(fù)是對用戶查詢來說是有用且有信息量的」這一說法的同意程度。

引用召回（citation recall）

引用召回率是指由其相關(guān)引文完全支持的、值得驗證的句子的比例，所以該指標的計算需要確定回復(fù)中值得驗證的句子，以及評估每個值得驗證的句子能夠被相關(guān)引文支持。

4 款「ChatGPT 搜索」全面對比，斯坦福華人博士純手工標注：新必應(yīng)流暢度最低，近一半句子都沒引用

在「識別值得驗證的句子」過程中，研究人員認為關(guān)于外部世界的每一個生成的句子都是值得驗證的，即使是那些可能看起來很明顯、微不足道的常識，因為對于某些讀者來說似乎是明顯的「常識」，但其實可能并不正確。

搜索引擎系統(tǒng)的目標應(yīng)該是為所有生成的關(guān)于外部世界的句子提供參考來源，使讀者能夠輕松地驗證生成的回復(fù)中的任何敘述，不能為了簡單而犧牲可驗證性。

所以實際上標注人員對所有生成的句子都進行驗證，除了那些以系統(tǒng)為第一人稱的回復(fù)，如「作為一個語言模型，我沒有能力做...」，或是對用戶的提問，如「你想了解更多嗎？」等。

評估「一個值得驗證的陳述是否得到其相關(guān)引文的充分支持」可以基于歸因已識別來源（AIS, attributable to identified sources）評估框架，標注人員進行二元標注，即如果一個普通的聽眾認可「基于引用的網(wǎng)頁，可以得出...」，那引文即可完全支持該回復(fù)。

引用精確率

為了衡量引用的精確率，標注人員需要判斷每個引用是否對其相關(guān)的句子提供了全部、部分或無關(guān)支持。

完全支持（full support）：句子中的所有信息都得到了引文的支持。

部分支持（Partial support）：句子中的一些信息得到了引文的支持，但其他部分可能存在缺失或矛盾。

無關(guān)支持（No support）：如引用的網(wǎng)頁完全不相關(guān)或相互矛盾。

對于有多個相關(guān)引文的句子，還會額外要求標注人員使用 AIS 評估框架判斷所有相關(guān)引文網(wǎng)頁作為一個整體是否為該句子提供了充分的支持（二元判斷）。

實驗結(jié)果

在流暢性和有用性評估中，可以看到各個搜索引擎都能夠生成非常流暢且有用的回復(fù)。

4 款「ChatGPT 搜索」全面對比，斯坦福華人博士純手工標注：新必應(yīng)流暢度最低，近一半句子都沒引用

在具體的搜索引擎評估中，可以看到看到 Bing Chat 的流暢性 / 有用性評分最低（4.40/4.34），其次是 NeevaAI（4.43/4.48），perplexity.ai（4.51/4.56），以及 YouChat（4.59/4.62）。

在不同類別的用戶查詢中，可以看到較短的提取性問題通常比長問題要更流暢，通常只回答事實性知識即可；一些有難度的問題通常需要對不同的表格或網(wǎng)頁進行匯總，合成過程會降低整體的流暢性。

在引文評估中，可以看到現(xiàn)有的生成式搜索引擎往往不能全面或正確地引用網(wǎng)頁，平均只有 51.5% 的生成句子得到了引文的完全支持（召回率），只有 74.5% 的引文完全支持其相關(guān)句子（精確度）。

4 款「ChatGPT 搜索」全面對比，斯坦福華人博士純手工標注：新必應(yīng)流暢度最低，近一半句子都沒引用

這個數(shù)值來說對于已經(jīng)擁有數(shù)百萬用戶的搜索引擎系統(tǒng)來說是不可接受的，特別是在生成回復(fù)往往信息量比較大的情況下。

并且不同的生成式搜索引擎之間的引文召回率和精確度有很大差異，其中 perplexity.ai 實現(xiàn)了最高的召回率（68.7），而 NeevaAI（67.6）、Bing Chat（58.7）和 YouChat（11.1）較低。

另一方面，Bing Chat 實現(xiàn)了最高的精確度（89.5），其次是 perplexity.ai（72.7）、NeevaAI（72.0）和 YouChat（63.6）

在不同的用戶查詢中，有長答案的 NaturalQuestions 查詢和非 NaturalQuestions 查詢之間的引用召回率差距接近 11%（分別為 58.5 和 47.8）；

同樣，有短答案的 NaturalQuestions 查詢和無短答案的 NaturalQuestions 查詢之間的引用召回率差距接近 10%（有短答案的查詢?yōu)?63.4，只有長答案的查詢?yōu)?53.6，而無長或短答案的查詢?yōu)?53.4）。

在沒有網(wǎng)頁支持的問題中，引用率就會較低，例如對開放式的 AllSouls 論文問題進行評估時，生成式搜索引擎在引文召回率方面只有 44.3

參考資料：

https://arxiv.org/abs/2304.09848

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

4 款「ChatGPT 搜索」全面對比，斯坦福華人博士純手工標注：新必應(yīng)流暢度最低，近一半句子都沒引用