首頁 > 智能時代>人工智能

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

量子位 2023/10/19 14:58:08 責(zé)編：遠(yuǎn)洋

評論：

試問百模大戰(zhàn)的當(dāng)下，誰家大模型的透明度最高？

（例如模型是如何構(gòu)建的、如何工作、用戶如何使用它們的相關(guān)信息。）

現(xiàn)在，這個問題終于有解了。

因為斯坦福大學(xué) HAI 等研究機構(gòu)最新共同發(fā)布了一項研究 ——

專門設(shè)計了一個名為基礎(chǔ)模型透明度指標(biāo)（The Foundation Model Transparency Index）的評分系統(tǒng)。

它從 100 個維度對國外 10 家主流的大模型做了排名，并在透明度這一層面上做了全面的評估。

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

結(jié)果可謂是大跌眼鏡！

若是以 60 分作為及格線，那么“參賽”的大模型們可以說是全軍覆沒，沒有一個及格的……

來感受下這個 feel：

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

排名第一的 Llama 2，分?jǐn)?shù)僅為 54；緊隨其后的便是 BLOOMZ，得分 53。

而 GPT-4 分?jǐn)?shù)僅僅為 48，排名第三；來自亞馬遜的 Titan Text 成績墊底，僅取得 12 分。

不僅如此，在斯坦福 HAI 官方的博客中，負(fù)責(zé)人 Rishi Bommasani 直言不諱地把 OpenAI 單拎出來說到：

基礎(chǔ)模型領(lǐng)域的公司變得越來越不透明。
例如名字帶“open”的 OpenAI 曾明確表示，與 GPT-4 相關(guān)的大多數(shù)信息將不會公開。

總而言之，團(tuán)隊認(rèn)為大模型發(fā)展到現(xiàn)階段，它們的透明度是一個非常重要的關(guān)鍵點，直接與是否可信掛鉤。

而且更深層次的，他們認(rèn)為這也從側(cè)面反映了人工智能行業(yè)從根本上缺乏透明度。

100 多頁論文研究模型透明度

那么這個排名到底是怎么來的？

在成績公布的同時，團(tuán)隊也把一篇厚達(dá) 100 多頁的論文曬了出來。

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

正如我們剛才提到的，這次排名一共涉及到了 100 個指標(biāo)維度。

若是“歸攏歸攏”著來看，可以將這些指標(biāo)大致分為三大類，分別是：

上游（Upstream）：指構(gòu)建基礎(chǔ)模型所涉及的成分和過程，例如計算資源、數(shù)據(jù)等；
模型（Model）：指基礎(chǔ)模型的屬性和功能，例如體系結(jié)構(gòu)、能力和風(fēng)險等；
下游（Downstream）：基礎(chǔ)模型是如何分布和使用的，例如對用戶的影響、更新內(nèi)容、控制策略等。

將 10 大模型此次的成績，按照上面的三大維度來看，得分細(xì)節(jié)如下：

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

從結(jié)果上來看，“上游”類指標(biāo)的得分差異較為明顯；例如 BLOOMZ 的“上游”類指標(biāo)在整體得分中的占比較高。

而像 Jurassic-2、Inflection-1 和 Titan Text，這三個模型的“上游”類指標(biāo)得分直接為 0。

如果將“上游”、“模型”和“下游”視為三個“頂級域”，那么團(tuán)隊在它們基礎(chǔ)之上，還分了更精細(xì)、更深入的 13 個“子域”：

數(shù)據(jù)（Data）、勞動力（Labor）、計算（Compute）；
方法（Methods）、模型基礎(chǔ)（Model Basicis）、模型訪問（Model Access）、功能（Capabilities）；
風(fēng)險（Risks）、緩解措施（Mitigations）、分布（Distributions）、使用策略（Usage Policy）、反饋（Feedback）、影響（Impact）。

13 個“子域”劃分下的細(xì)節(jié)得分情況如下：

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

至于完整的 100 個指標(biāo)維度，可以參考下面這張圖表：

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

當(dāng)然，對于大模型領(lǐng)域最具熱度話題之一的“開源閉源之爭”，也在此次的研究中有所涉足。

團(tuán)隊將廣泛可下載的模型標(biāo)記為開源模型，“參賽選手”中有三位屬于此列，分別是 Llama 2、BLOOMZ 和 Stable Diffusion 2。

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

從排名結(jié)果中顯而易見地可以看出，開源模型的得分普遍遙遙領(lǐng)先，唯有 GPT-4 的得分比 Stable Diffusion 2 高出了 1 分。

對此，研究人員也做出了解釋：

這種差異很大程度上是由于閉源模型的開發(fā)人員在“上游”問題上缺乏透明度造成的，比如用于構(gòu)建模型的數(shù)據(jù)、勞動力和計算。

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

此次模型透明度排名的更多細(xì)節(jié)內(nèi)容，可參考文末的論文。

透明度為什么重要？

針對這個問題，斯坦福 HAI 在官方博客中也做出了相應(yīng)說明。

例如在負(fù)責(zé)人 Rishi Bommasani 看來：

缺乏透明度，長期以來一直是數(shù)字技術(shù)消費者面臨的一個問題。
在當(dāng)下的互聯(lián)網(wǎng)中充斥著諸多這樣的問題，例如欺騙性的廣告和定價、欺騙用戶在不知情的情況下進(jìn)行網(wǎng)購等等。

MIT 博士 Shayne Longpre 認(rèn)為，隨著大模型越發(fā)的火熱并且在各行各業(yè)中迅速落地，科學(xué)家們有必要了解它們是如何設(shè)計的，尤其是“上游”的那些指標(biāo)。

對于產(chǎn)業(yè)界來說，亦是如此，決策者們在面對“用哪個大模型、怎么用”等問題時，都需要建立在模型透明度的基礎(chǔ)之上。

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

那么你對于這次大模型的透明度排名有怎樣的看法呢？歡迎在評論區(qū)留言交流~

論文地址：

https://crfm.stanford.edu/fmti/fmti.pdf

參考鏈接：

[1]https://hai.stanford.edu/news/introducing-foundation-model-transparency-index
[2]https://github.com/stanford-crfm/fmti
[3]https://www.theverge.com/2023/10/18/23922973/stanford-ai-foundation-model-transparency-index

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

100 多頁論文研究模型透明度

透明度為什么重要？

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

100 多頁論文研究模型透明度

透明度為什么重要？

相關(guān)文章

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

透明度為什么重要？