首頁 > 智能時(shí)代>人工智能

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

量子位 2024/11/26 18:37:17 責(zé)編：汪淼

評(píng)論：

只需幾秒鐘，開源模型檢索 4500 萬篇論文，比 GPT-4o 還靠譜！

這就是由華盛頓大學(xué)和艾倫人工智能研究所（Ai2）打造的最新模型 OpenScholar。它還是首個(gè)從論文到數(shù)據(jù)集、模型檢查點(diǎn)都完全開源的科研助手模型。

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

在由 20 位專家進(jìn)行的 500 次對(duì)比實(shí)驗(yàn)中，72% 的情況下他們都覺得 OpenScholar 的輸出結(jié)果超越了人類。

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

而且 OpenScholar 還會(huì)附上參考文獻(xiàn)列表，非常貼心：

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

它的功能也非常豐富。

你可以詢問 OpenScholar 某個(gè)研究課題的現(xiàn)狀：“有沒有人嘗試過將檢索增強(qiáng)型 LM 的檢索庫(kù)擴(kuò)大到萬億級(jí) tokens？”

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

尋找最新的數(shù)據(jù)集：

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

針對(duì)某篇論文詢問技術(shù)細(xì)節(jié)：

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

或者詢問算法的細(xì)節(jié)，比如機(jī)器人算法 / ReLU 算法等等：

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

有多位網(wǎng)友使用過后表示：做復(fù)雜課題也能快速搜集有用的資料，真是科研神器！

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

僅調(diào)用 8B 模型

一句話總結(jié)：它存儲(chǔ)了 4500 萬篇論文的大規(guī)模數(shù)據(jù)，并使用自定義訓(xùn)練的檢索器、重排器和 8B 參數(shù)語言模型進(jìn)行檢索，并根據(jù)最新的科學(xué)文獻(xiàn)內(nèi)容回答問題。

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

具體來說，OpenScholar-8B（OS-8B）系統(tǒng)包括以下組件：

1.開放學(xué)者數(shù)據(jù)存儲(chǔ)：包含超過 4500 萬篇論文、以及對(duì)應(yīng)的約 2.5 億段落嵌入。底層論文數(shù)據(jù)截止到 2024 年 10 月。
2.專業(yè)檢索器和重排序器：這些工具專門用于從科學(xué)文獻(xiàn)數(shù)據(jù)存儲(chǔ)庫(kù)中識(shí)別相關(guān)段落。
3.專業(yè) 8B 語言模型：這是一個(gè)針對(duì)科學(xué)文獻(xiàn)綜合任務(wù)優(yōu)化的 8B 參數(shù)語言模型，在性能與計(jì)算效率之間取得了很好平衡。團(tuán)隊(duì)基于來自迭代自我反饋生成管道生成的合成數(shù)據(jù)訓(xùn)練并微調(diào)了 Llama 3.1 8B。
4.迭代自我反饋生成：在推理過程中，團(tuán)隊(duì)使用迭代自我反饋來通過自然語言反饋精煉模型輸出。每次迭代都額外檢索更多論文，使模型能夠提高回答質(zhì)量并縮小引用差距。

為了評(píng)估 OpenScholar，團(tuán)隊(duì)還開發(fā)了 ScholarQABench—— 一個(gè)專門用于評(píng)估從多篇論文中綜合信息以解決開放式科學(xué)問題的基準(zhǔn)。

ScholarQABench 包含七個(gè)數(shù)據(jù)集：三個(gè)專注于單篇論文評(píng)估的現(xiàn)有數(shù)據(jù)集，以及四個(gè)需要跨多篇論文綜合的新收集數(shù)據(jù)集。

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

最終在實(shí)驗(yàn)自動(dòng)評(píng)估以及人工評(píng)估中，OpenScholar 模型的表現(xiàn)優(yōu)于很多主流模型，包括 GPT-4o 和 Llama 3.1 70B。

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

搜索的可靠性方面，OpenScholar 更是遠(yuǎn)超 GPT-4o。

GPT-4o 在 90% 以上的情況下都引用了不存在的論文，而 OpenScholar 的結(jié)果都是來自確定來源。

以及在信息覆蓋率、實(shí)用性、相關(guān)性等多個(gè)維度方面，OpenScholar 撰寫的結(jié)果都優(yōu)于 GPT-4o。

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

運(yùn)營(yíng)成本便宜 100 倍

對(duì)比基于 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 的科研模型可以發(fā)現(xiàn)，它們雖然性能很強(qiáng)，但價(jià)格昂貴、而且工作原理也不透明。而 OpenScholar 正是為了挑戰(zhàn)這些現(xiàn)有的大模型玩家入局的！

據(jù)開發(fā)人員稱，OpenScholar 是首個(gè)完全開源的科學(xué)助手語言模型 —— 從數(shù)據(jù)到訓(xùn)練食譜再到模型檢查點(diǎn)，全部公開！

研究人員可以非常清除地看到模型的訓(xùn)練過程和數(shù)據(jù)集的內(nèi)容等，也可以根據(jù)自己的工作進(jìn)行調(diào)整。

這樣一來，規(guī)模較小、架構(gòu)簡(jiǎn)單的 OpenScholar-8B 的運(yùn)營(yíng)成本比基于 GPT-4o 構(gòu)建的同期系統(tǒng) PaperQA2 便宜 100 倍。

對(duì)于小型機(jī)構(gòu)、資金不足的實(shí)驗(yàn)室以及發(fā)展中國(guó)家的研究人員來說，這樣的運(yùn)營(yíng)成本非常有吸引力。

不過，目前 OpenScholar 也有很多局限，比如：

1.OpenScholar 可能會(huì)引用不那么具有代表性的論文。

例如，在描述特定方法時(shí)，它可能未能引用提出該方法的原始論文，而是引用了提及該方法的另一篇論文。

2.OpenScholar 有時(shí)可能會(huì)生成沒有參考文獻(xiàn)支持的響應(yīng)，或者檢索到該領(lǐng)域不是最相關(guān)或最新的論文。

例如：當(dāng)被問及機(jī)器人學(xué)中的大型基礎(chǔ)模型時(shí)，此響應(yīng)引用了一篇具有 3.07 億參數(shù)模型的論文，而截至 2024 年 11 月，機(jī)器人學(xué)中當(dāng)前最大的基礎(chǔ)模型（RT-2）具有 550 億參數(shù)。

3.OpenScholar 可能仍然可能生成帶有幻覺的結(jié)果，而不是依賴于它檢索到的真實(shí)論文。
4.許多科學(xué)論文都設(shè)置了付費(fèi)墻。

目前出于對(duì)版權(quán)的尊重，OpenScholar 數(shù)據(jù)存儲(chǔ)庫(kù)僅包含公開的論文。這可能會(huì)降低模型在較封閉領(lǐng)域回答問題的能力。

團(tuán)隊(duì)表示，未來他們會(huì)納入更多論文、升級(jí)檢索增強(qiáng)算法，也會(huì)對(duì)各個(gè)領(lǐng)域的經(jīng)典研究問題和論文進(jìn)行深入整合，增強(qiáng) OpenScholar 的專業(yè)程度。

不過，從實(shí)驗(yàn)結(jié)果來看，OpenScholar 已經(jīng)是目前表現(xiàn)最好的 AI 學(xué)術(shù)研究助理之一啦，感興趣的小伙伴可以直接戳下面的公開資料進(jìn)行嘗試！

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

Demo：

https://openscholar.allen.ai/

論文：

https://openscholar.allen.ai/paper

OpenScholar 代碼：

https://github.com/AkariAsai/OpenScholar

ScholarQABench 數(shù)據(jù)集代碼：

https://github.com/AkariAsai/ScholarQABench

參考鏈接

[1] https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/
[2] https://allenai.org/blog/openscholar

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：奇月，原標(biāo)題《超越 GPT-4o！開源科研神器登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成靠譜回答》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

僅調(diào)用 8B 模型

運(yùn)營(yíng)成本便宜 100 倍

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答

僅調(diào)用 8B 模型

運(yùn)營(yíng)成本便宜 100 倍

相關(guān)文章

超越 GPT-4o：開源科研模型 OpenScholar 登場(chǎng)，4500 萬篇論文檢索增強(qiáng)生成回答