在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

超越 GPT-4o:開源科研模型 OpenScholar 登場(chǎng),4500 萬篇論文檢索增強(qiáng)生成回答

量子位 2024/11/26 18:37:17 責(zé)編:汪淼

只需幾秒鐘,開源模型檢索 4500 萬篇論文,比 GPT-4o 還靠譜!

這就是由華盛頓大學(xué)和艾倫人工智能研究所(Ai2)打造的最新模型 OpenScholar。它還是首個(gè)從論文到數(shù)據(jù)集、模型檢查點(diǎn)都完全開源的科研助手模型。

在由 20 位專家進(jìn)行的 500 次對(duì)比實(shí)驗(yàn)中,72% 的情況下他們都覺得 OpenScholar 的輸出結(jié)果超越了人類。

而且 OpenScholar 還會(huì)附上參考文獻(xiàn)列表,非常貼心:

它的功能也非常豐富。

你可以詢問 OpenScholar 某個(gè)研究課題的現(xiàn)狀:“有沒有人嘗試過將檢索增強(qiáng)型 LM 的檢索庫(kù)擴(kuò)大到萬億級(jí) tokens?”

尋找最新的數(shù)據(jù)集

針對(duì)某篇論文詢問技術(shù)細(xì)節(jié)

或者詢問算法的細(xì)節(jié),比如機(jī)器人算法 / ReLU 算法等等:

有多位網(wǎng)友使用過后表示:做復(fù)雜課題也能快速搜集有用的資料,真是科研神器!

僅調(diào)用 8B 模型

一句話總結(jié):它存儲(chǔ)了 4500 萬篇論文的大規(guī)模數(shù)據(jù),并使用自定義訓(xùn)練的檢索器、重排器和 8B 參數(shù)語言模型進(jìn)行檢索,并根據(jù)最新的科學(xué)文獻(xiàn)內(nèi)容回答問題。

具體來說,OpenScholar-8B(OS-8B)系統(tǒng)包括以下組件:

  • 1.開放學(xué)者數(shù)據(jù)存儲(chǔ):包含超過 4500 萬篇論文、以及對(duì)應(yīng)的約 2.5 億段落嵌入。底層論文數(shù)據(jù)截止到 2024 年 10 月。

  • 2.專業(yè)檢索器和重排序器:這些工具專門用于從科學(xué)文獻(xiàn)數(shù)據(jù)存儲(chǔ)庫(kù)中識(shí)別相關(guān)段落。

  • 3.專業(yè) 8B 語言模型:這是一個(gè)針對(duì)科學(xué)文獻(xiàn)綜合任務(wù)優(yōu)化的 8B 參數(shù)語言模型,在性能與計(jì)算效率之間取得了很好平衡。團(tuán)隊(duì)基于來自迭代自我反饋生成管道生成的合成數(shù)據(jù)訓(xùn)練并微調(diào)了 Llama 3.1 8B。

  • 4.迭代自我反饋生成:在推理過程中,團(tuán)隊(duì)使用迭代自我反饋來通過自然語言反饋精煉模型輸出。每次迭代都額外檢索更多論文,使模型能夠提高回答質(zhì)量并縮小引用差距。

為了評(píng)估 OpenScholar,團(tuán)隊(duì)還開發(fā)了 ScholarQABench—— 一個(gè)專門用于評(píng)估從多篇論文中綜合信息以解決開放式科學(xué)問題的基準(zhǔn)。

ScholarQABench 包含七個(gè)數(shù)據(jù)集:三個(gè)專注于單篇論文評(píng)估的現(xiàn)有數(shù)據(jù)集,以及四個(gè)需要跨多篇論文綜合的新收集數(shù)據(jù)集。

最終在實(shí)驗(yàn)自動(dòng)評(píng)估以及人工評(píng)估中,OpenScholar 模型的表現(xiàn)優(yōu)于很多主流模型,包括 GPT-4o 和 Llama 3.1 70B。

搜索的可靠性方面,OpenScholar 更是遠(yuǎn)超 GPT-4o。

GPT-4o 在 90% 以上的情況下都引用了不存在的論文,而 OpenScholar 的結(jié)果都是來自確定來源。

以及在信息覆蓋率、實(shí)用性、相關(guān)性等多個(gè)維度方面,OpenScholar 撰寫的結(jié)果都優(yōu)于 GPT-4o。

運(yùn)營(yíng)成本便宜 100 倍

對(duì)比基于 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 的科研模型可以發(fā)現(xiàn),它們雖然性能很強(qiáng),但價(jià)格昂貴、而且工作原理也不透明。而 OpenScholar 正是為了挑戰(zhàn)這些現(xiàn)有的大模型玩家入局的!

據(jù)開發(fā)人員稱,OpenScholar 是首個(gè)完全開源的科學(xué)助手語言模型 —— 從數(shù)據(jù)到訓(xùn)練食譜再到模型檢查點(diǎn),全部公開!

研究人員可以非常清除地看到模型的訓(xùn)練過程和數(shù)據(jù)集的內(nèi)容等,也可以根據(jù)自己的工作進(jìn)行調(diào)整。

這樣一來,規(guī)模較小、架構(gòu)簡(jiǎn)單的 OpenScholar-8B 的運(yùn)營(yíng)成本比基于 GPT-4o 構(gòu)建的同期系統(tǒng) PaperQA2 便宜 100 倍。

對(duì)于小型機(jī)構(gòu)、資金不足的實(shí)驗(yàn)室以及發(fā)展中國(guó)家的研究人員來說,這樣的運(yùn)營(yíng)成本非常有吸引力。

不過,目前 OpenScholar 也有很多局限,比如:

  • 1.OpenScholar 可能會(huì)引用不那么具有代表性的論文。

例如,在描述特定方法時(shí),它可能未能引用提出該方法的原始論文,而是引用了提及該方法的另一篇論文。

  • 2.OpenScholar 有時(shí)可能會(huì)生成沒有參考文獻(xiàn)支持的響應(yīng),或者檢索到該領(lǐng)域不是最相關(guān)或最新的論文。

例如:當(dāng)被問及機(jī)器人學(xué)中的大型基礎(chǔ)模型時(shí),此響應(yīng)引用了一篇具有 3.07 億參數(shù)模型的論文,而截至 2024 年 11 月,機(jī)器人學(xué)中當(dāng)前最大的基礎(chǔ)模型(RT-2)具有 550 億參數(shù)。

  • 3.OpenScholar 可能仍然可能生成帶有幻覺的結(jié)果,而不是依賴于它檢索到的真實(shí)論文。

  • 4.許多科學(xué)論文都設(shè)置了付費(fèi)墻。

目前出于對(duì)版權(quán)的尊重,OpenScholar 數(shù)據(jù)存儲(chǔ)庫(kù)僅包含公開的論文。這可能會(huì)降低模型在較封閉領(lǐng)域回答問題的能力。

團(tuán)隊(duì)表示,未來他們會(huì)納入更多論文、升級(jí)檢索增強(qiáng)算法,也會(huì)對(duì)各個(gè)領(lǐng)域的經(jīng)典研究問題和論文進(jìn)行深入整合,增強(qiáng) OpenScholar 的專業(yè)程度。

不過,從實(shí)驗(yàn)結(jié)果來看,OpenScholar 已經(jīng)是目前表現(xiàn)最好的 AI 學(xué)術(shù)研究助理之一啦,感興趣的小伙伴可以直接戳下面的公開資料進(jìn)行嘗試!

Demo:

https://openscholar.allen.ai/

論文:

https://openscholar.allen.ai/paper

OpenScholar 代碼:

https://github.com/AkariAsai/OpenScholar

ScholarQABench 數(shù)據(jù)集代碼:

https://github.com/AkariAsai/ScholarQABench

更多測(cè)試 code:

https://github.com/AkariAsai/OpenScholar_ExpertEval

參考鏈接

  • [1] https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/

  • [2] https://allenai.org/blog/openscholar

本文來自微信公眾號(hào):量子位(ID:QbitAI),作者:奇月,原標(biāo)題《超越 GPT-4o!開源科研神器登場(chǎng),4500 萬篇論文檢索增強(qiáng)生成靠譜回答》

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI論文,OpenScholar

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知