LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

新智元 2023/4/11 11:45:14 責(zé)編：夢(mèng)澤

評(píng)論：

Meta 的 LLaMA 模型開(kāi)源，讓文本大模型迎來(lái)了 Stable Diffustion 時(shí)刻。誰(shuí)都沒(méi)想到，LLaMA 的一場(chǎng)「史詩(shī)級(jí)」泄漏，產(chǎn)生了一系列表現(xiàn)驚艷的 ChatGPT「平替」。

誰(shuí)能想到，一次意外的 LLaMA 泄漏，竟點(diǎn)燃了開(kāi)源 LLM 領(lǐng)域最大的創(chuàng)新火花。

一系列表現(xiàn)出色的 ChatGPT 開(kāi)源替代品 ——「羊駝家族」，隨后眼花繚亂地登場(chǎng)。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

開(kāi)源和基于 API 的分發(fā)之間的摩擦，是生成式 AI 生態(tài)系統(tǒng)中最迫在眉睫的矛盾之一。

在文本到圖像領(lǐng)域，Stable Diffusion 的發(fā)布清楚地表明，對(duì)于基礎(chǔ)模型來(lái)說(shuō)，開(kāi)源是一種可行的分發(fā)機(jī)制。

然而，在大語(yǔ)言模型領(lǐng)域卻并非如此，這個(gè)領(lǐng)域最大的突破，比如 GPT-4、Claude 和 Cohere 等模型，都只能通過(guò) API 獲得。

這些模型的開(kāi)源替代品沒(méi)有表現(xiàn)出相同水平的性能，特別是在遵循人類指令能力上。然而，一場(chǎng)意想不到的泄露，讓這種狀況徹底發(fā)生了改變。

LLaMA 的「史詩(shī)級(jí)」泄漏

幾周前，Meta AI 推出了大語(yǔ)言模型 LLaMA 。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

LLaMA 有不同的版本，包括 7B、13B、33B 和 65B 的參數(shù)，雖然它比 GPT-3 小，但在許多任務(wù)上，它都能和 GPT-3 的性能相媲美。

LLaMA 起初并未開(kāi)源，但在發(fā)布一周后，這個(gè)模型忽然在 4chan 上泄露了，引發(fā)了數(shù)千次下載。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

這個(gè)事件，可以被稱為「史詩(shī)級(jí)泄漏」了，因?yàn)樗蔀榱舜笳Z(yǔ)言模型領(lǐng)域?qū)映霾桓F的創(chuàng)新來(lái)源。

短短幾周內(nèi)，基于它構(gòu)建的 LLM 代理的創(chuàng)新，已經(jīng)呈爆炸式增長(zhǎng)。

Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 讓我們來(lái)回顧一下，這場(chǎng)「羊駝家族」的大爆炸，是如何誕生的。

Alpaca

在三月中旬，斯坦福發(fā)布的大模型 Alpaca 火了。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

Alpaca 是由 Meta 的 LLaMA 7B 微調(diào)而來(lái)的全新模型，僅用了 52k 數(shù)據(jù)，性能約等于 GPT-3.5。

關(guān)鍵是訓(xùn)練成本奇低，不到 600 美元。

斯坦福研究者對(duì) GPT-3.5（text-davinci-003）和 Alpaca 7B 進(jìn)行了比較，發(fā)現(xiàn)這兩個(gè)模型的性能非常相似。Alpaca 在與 GPT-3.5 的比較中，獲勝次數(shù)為 90 對(duì) 89。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

對(duì)于斯坦福的團(tuán)隊(duì)來(lái)說(shuō)，想要在預(yù)算內(nèi)訓(xùn)練一個(gè)高質(zhì)量的指令遵循模型，就必須面臨 2 個(gè)重要的挑戰(zhàn)：要有一個(gè)強(qiáng)大的預(yù)訓(xùn)練語(yǔ)言模型，以及一個(gè)高質(zhì)量的指令遵循數(shù)據(jù)。

恰恰，提供給學(xué)術(shù)研究人員使用的 LLaMA 模型搞定了第一個(gè)問(wèn)題。

對(duì)于第二個(gè)挑戰(zhàn)，「Self-Instruct: Aligning Language Model with Self Generated Instructions」論文給了很好的啟發(fā)，即使用現(xiàn)有的強(qiáng)語(yǔ)言模型來(lái)自動(dòng)生成指令數(shù)據(jù)。

LLaMA 模型最大的弱點(diǎn)，就是缺乏指令微調(diào)。OpenAI 最大的創(chuàng)新之一就是將指令調(diào)優(yōu)用在了 GPT-3 上。

對(duì)此，斯坦福使用了現(xiàn)有的大語(yǔ)言模型，來(lái)自動(dòng)生成遵循指令演示。

現(xiàn)在，Alpaca 直接被網(wǎng)友們奉為「文本大模型的 Stable Diffusion」。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

Vicuna

3 月底，來(lái)自 UC 伯克利、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)和加州大學(xué)圣地亞哥分校的研究人員開(kāi)源了 Vicuna，這是一個(gè)與 GPT-4 性能相匹配的 LLaMA 微調(diào)版本。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

130 億參數(shù)的 Vicuna，通過(guò)在 ShareGPT 收集的用戶共享對(duì)話上對(duì) LLaMA 進(jìn)行微調(diào)訓(xùn)練而來(lái)，訓(xùn)練成本近 300 美元。

結(jié)果顯示 Vicuna-13B 在超過(guò) 90% 的情況下，實(shí)現(xiàn)了與 ChatGPT 和 Bard 相匹敵的能力。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

對(duì)于 Vicuna-13B 訓(xùn)練流程，具體如下：

首先，研究人員從 ChatGPT 對(duì)話分享網(wǎng)站 ShareGPT 上，收集了大約 70K 對(duì)話。

接下來(lái)，研究人員優(yōu)化了 Alpaca 提供的訓(xùn)練腳本，使模型能夠更好地處理多輪對(duì)話和長(zhǎng)序列。之后利用 PyTorch FSDP 在 8 個(gè) A100 GPU 上進(jìn)行了一天的訓(xùn)練。

在模型的質(zhì)量評(píng)估方面，研究人員創(chuàng)建了 80 個(gè)不同的問(wèn)題，并用 GPT-4 對(duì)模型輸出進(jìn)行了評(píng)價(jià)。

為了比較不同的模型，研究人員將每個(gè)模型的輸出組合成一個(gè)單獨(dú)的提示，然后讓 GPT-4 評(píng)估哪個(gè)模型給出的回答更好。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

LLaMA、Alpaca、Vicuna 和 ChatGPT 的對(duì)比

Koala

最近，UC 伯克利 AI Research Institute（BAIR）又發(fā)布了一個(gè)新模型「考拉」（Koala），相比之前使用 OpenAI 的 GPT 數(shù)據(jù)進(jìn)行指令微調(diào)，Koala 的不同之處在于使用網(wǎng)絡(luò)獲取的高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

研究結(jié)果表明，Koala 可以有效地回答各種用戶的查詢，生成的回答往往比 Alpaca 更受歡迎，至少在一半的情況下與 ChatGPT 的效果不相上下。

研究人員希望這次實(shí)驗(yàn)的結(jié)果可以進(jìn)一步推動(dòng)圍繞大型閉源模型相對(duì)于小型公共模型的相對(duì)性能的討論，特別是結(jié)果表明，對(duì)于那些能在本地運(yùn)行的小模型，如果認(rèn)真地收集訓(xùn)練數(shù)據(jù)，也可以取得大模型的性能。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

事實(shí)上，在此之前斯坦福大學(xué)發(fā)布的 Alpaca 模型，根據(jù) OpenAI 的 GPT 模型對(duì) LLaMA 的數(shù)據(jù)進(jìn)行微調(diào)的實(shí)驗(yàn)結(jié)果已經(jīng)表明，正確的數(shù)據(jù)可以顯著改善規(guī)模更小的開(kāi)源模型。

這也是伯克利的研究人員開(kāi)發(fā)和發(fā)布 Koala 模型的初衷，希望為這個(gè)討論結(jié)果再提供了一個(gè)實(shí)驗(yàn)證明。

Koala 對(duì)從網(wǎng)上獲取的免費(fèi)交互數(shù)據(jù)進(jìn)行了微調(diào)，并且特別關(guān)注包括與 ChatGPT 等高性能閉源模型交互的數(shù)據(jù)。

研究人員并沒(méi)有追求盡可能多的抓取網(wǎng)絡(luò)數(shù)據(jù)來(lái)最大化數(shù)據(jù)量，而是專注于收集一個(gè)小型的高質(zhì)量數(shù)據(jù)集，包括 ChatGPT 蒸餾數(shù)據(jù)、開(kāi)源數(shù)據(jù)等。

ChatLLaMA

Nebuly 開(kāi)源了 ChatLLaMA ，這是一個(gè)使用讓我們使用自己的數(shù)據(jù)創(chuàng)建對(duì)話助手的框架。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

ChatLLaMA 讓我們使用自己的數(shù)據(jù)和盡可能少的計(jì)算量，來(lái)創(chuàng)建超個(gè)性化的類似 ChatGPT 的助手。

假設(shè)在未來(lái)，我們不再依賴一個(gè)「統(tǒng)治所有人」的大型助手，每個(gè)人都可以創(chuàng)建自己的個(gè)性化版本類 ChatGPT 助手，它們可以支持人類的各種需求。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

不過(guò)，創(chuàng)建這種個(gè)性化助手需要在許多方面做出努力：數(shù)據(jù)集創(chuàng)建，使用 RLHF 進(jìn)行高效訓(xùn)練，以及推理優(yōu)化。

這個(gè)庫(kù)的目的是，通過(guò)抽象計(jì)算優(yōu)化和收集大量數(shù)據(jù)所需的工作，讓開(kāi)發(fā)人員高枕無(wú)憂。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

ChatLLaMA 旨在幫助開(kāi)發(fā)人員處理各種用例，所有用例都與 RLHF 訓(xùn)練和優(yōu)化推理有關(guān)。以下是一些用例參考：

為垂直特定任務(wù)（法律、醫(yī)療、游戲、學(xué)術(shù)研究等）創(chuàng)建類似 ChatGPT 的個(gè)性化助手；
想在本地硬件基礎(chǔ)設(shè)施上使用有限的數(shù)據(jù)，訓(xùn)練一個(gè)高效的類似 ChatGPT 的助手；
想創(chuàng)建自己的個(gè)性化版本類 ChatGPT 助手，同時(shí)避免成本失控；
想了解哪種模型架構(gòu)（LLaMA、OPT、GPTJ 等）最符合我在硬件、計(jì)算預(yù)算和性能方面的要求；
想讓助理與我的個(gè)人 / 公司價(jià)值觀、文化、品牌和宣言保持一致。

FreedomGPT

FreedomGPT 使用 Electron 和 React 構(gòu)建，它是一個(gè)桌面應(yīng)用程序，允許用戶在他們的本地機(jī)器上運(yùn)行 LLaMA。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

FreedomGPT 的特色，從它的名字上就可見(jiàn)一斑 —— 它回答的問(wèn)題不受任何審查或安全過(guò)濾。

這個(gè)程序由 AI 風(fēng)險(xiǎn)投資公司 Age of AI 開(kāi)發(fā)。

FreedomGPT 建立在 Alpaca 之上。FreedomGPT 使用 Alpaca 的顯著特征，因?yàn)榕c其他模型相比，Alpaca 相對(duì)更易于訪問(wèn)和定制。

ChatGPT 遵循 OpenAI 的使用政策，限制仇恨、自殘、威脅、暴力、性方面的內(nèi)容。

與 ChatGPT 不同，F(xiàn)reedomGPT 回答問(wèn)題時(shí)沒(méi)有偏見(jiàn)或偏袒，并且會(huì)毫不猶豫地回答有爭(zhēng)議或爭(zhēng)論性的話題。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

FreedomGPT 甚至還回答了「如何在家制造炸彈」，而 OpenAI 專門(mén)從 GPT-4 中刪除了這一點(diǎn)。

FreedomGPT 很獨(dú)特，因?yàn)樗朔藢彶橄拗?，在沒(méi)有任何保障的情況下迎合有爭(zhēng)議的話題。它的標(biāo)志是自由女神像，因?yàn)檫@個(gè)獨(dú)特而大膽的大語(yǔ)言模型象征了自由。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

FreedomGPT 甚至可以在不需要聯(lián)網(wǎng)的情況下，就能在計(jì)算機(jī)上本地運(yùn)行。

此外，開(kāi)源版本將很快發(fā)布，使用戶和組織可以完全定制。

ColossalChat

UC 伯克利提出的 ColossalChat 只需要不到 100 億個(gè)參數(shù)就可以達(dá)到中英文雙語(yǔ)能力，效果與 ChatGPT 和 GPT-3.5 相當(dāng)。

此外，基于 LLaMA 模型的 ColossalChat，還復(fù)刻了完整的 RLHF 過(guò)程，是目前最接近 ChatGPT 原始技術(shù)路線的開(kāi)源項(xiàng)目。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

中英雙語(yǔ)訓(xùn)練數(shù)據(jù)集

ColossalChat 發(fā)布了一個(gè)雙語(yǔ)數(shù)據(jù)集，其中包含大約 100,000 個(gè)中英文問(wèn)答對(duì)。

該數(shù)據(jù)集是從社交媒體平臺(tái)上的真實(shí)問(wèn)題場(chǎng)景中收集和清理的，作為種子數(shù)據(jù)集，使用 self-instruct 進(jìn)行擴(kuò)展，標(biāo)注成本約為 900 美元。

與其他 self-instruct 方法生成的數(shù)據(jù)集相比，該數(shù)據(jù)集包含更真實(shí)和多樣化的種子數(shù)據(jù)，涵蓋更廣泛的主題。

該數(shù)據(jù)集適用于微調(diào)和 RLHF 訓(xùn)練。在提供優(yōu)質(zhì)數(shù)據(jù)的情況下，ColossalChat 可以實(shí)現(xiàn)更好的對(duì)話交互，同時(shí)也支持中文。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

完整的 RLHF 管線

RLHF 的算法復(fù)刻共有三個(gè)階段：

在 RLHF-Stage1 中，使用上述雙語(yǔ)數(shù)據(jù)集進(jìn)行監(jiān)督指令微調(diào)以微調(diào)模型。

在 RLHF-Stage2 中，通過(guò)對(duì)同一提示的不同輸出手動(dòng)排序來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型分配相應(yīng)的分?jǐn)?shù)，然后監(jiān)督獎(jiǎng)勵(lì)模型的訓(xùn)練。

在 RLHF-Stage3 中，使用了強(qiáng)化學(xué)習(xí)算法，這是訓(xùn)練過(guò)程中最復(fù)雜的部分。

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

相信很快，就會(huì)有更多項(xiàng)目發(fā)布。

誰(shuí)也沒(méi)想到，這場(chǎng) LLaMA 的意外泄露，竟點(diǎn)燃了開(kāi)源 LLM 領(lǐng)域最大的創(chuàng)新火花。

參考資料：

https://thesequence.substack.com/p/the-LLaMA%20%20-effect-how-an-accidental

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

LLaMA 的「史詩(shī)級(jí)」泄漏

Alpaca

Vicuna

Koala

ChatLLaMA

FreedomGPT

ColossalChat

中英雙語(yǔ)訓(xùn)練數(shù)據(jù)集

完整的 RLHF 管線

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天

LLaMA 的「史詩(shī)級(jí)」泄漏

Alpaca

Vicuna

Koala

ChatLLaMA

FreedomGPT

ColossalChat

中英雙語(yǔ)訓(xùn)練數(shù)據(jù)集

完整的 RLHF 管線

相關(guān)文章

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮，開(kāi)源 LLM 領(lǐng)域變天