首頁 > 智能時代>人工智能

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

新智元 2024/8/1 13:53:28 責(zé)編：汪淼

評論：

谷歌 DeepMind 的小模型，又上新了！

就在剛剛，谷歌 DeepMind 發(fā)布 Gemma 2 2B。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

它是從 Gemma 2 27B 中蒸餾而來。

雖然它的參數(shù)只有 2.6B，但在 LMSYS 競技場上的得分，已經(jīng)超越了 GPT-3.5 和 Mixtral 8x7B！

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

在 MMLU 和 MBPP 基準(zhǔn)測試中，它分別取得了 56.1 和 36.6 的優(yōu)異成績；比起前代模型 Gemma 1 2B，它的性能超過了 10%。

小模型擊敗了大幾個數(shù)量級的大模型，再一次印證了最近業(yè)界非?？春玫男∧Ｐ头较颉?/p>

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

谷歌在今天，一共公布了 Gemma 2 家族的三個新成員：

Gemma 2 2B：輕量級 2B 模型，在性能和效率之間實(shí)現(xiàn)了最大的平衡
ShieldGemma：基于 Gemma 2 構(gòu)建的安全內(nèi)容分類器模型，用于過濾 AI 模型的輸入和輸出，確保用戶安全
Gemma Scope：一種可解釋性工具，提供對模型內(nèi)部運(yùn)行機(jī)制的無與倫比的洞察

6 月，27B 和 9B Gemma 2 模型誕生。

自發(fā)布以來，27B 模型迅速成為大模型排行榜上，排名前列的開源模型之一，甚至在實(shí)際對話中表現(xiàn)超過了參數(shù)數(shù)量大兩倍的流行模型。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

Gemma 2 2B：即刻在設(shè)備上使用

輕量級小模型 Gemma 2 2B，是從大模型中蒸餾而來，性能毫不遜色。

在大模型競技場 LMSYS 上，新模型取得令人印象深刻的 1130 分，與 10 倍參數(shù)的模型不相上下。

GPT-3.5-Turbo-0613 得分為 1117，Mixtral-8x7b 得分為 1114。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

足見，Gemma 2 2B 是最好的端側(cè)模型。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

有網(wǎng)友在 iPhone 15 Pro 上，讓量化后的 Gemma 2 2B 在 MLX Swift 上運(yùn)行，速度快到驚人。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

具體來說，它能夠在各種終端設(shè)備，包括手機(jī)、筆記本，甚至是使用 Vertex AI 和 Google Kubernetes Engine（GKE）強(qiáng)大的云，皆能完成部署。

為了讓模型加速，它通過 NVIDIA TensorRT-LLM 完成了優(yōu)化，在 NVIDIA NIM 平臺也可使用。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

優(yōu)化后的模型適用于各種平臺部署，包括數(shù)據(jù)中心、云、本地工作站、PC 和邊緣設(shè)備。

它還可以支持 RTX、RTX GPU、Jetson 模塊，完成邊緣化 AI 部署。

此外，Gemma 2 2B 無縫集成了 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp 等，并很快將與 MediaPipe 集成，實(shí)現(xiàn)簡化開發(fā)。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

當(dāng)然，與 Gemma 2 一樣，2B 模型也同樣可以用來研究和商用。

甚至，由于其參數(shù)量足夠下，它可以在 Google Colab 的免費(fèi) T4 GPU 層上運(yùn)行，降低了開發(fā)門檻。

目前，每位開發(fā)者都可以從 Kaggle、Hugging Face、Vertex AI Model Garden 下載 Gemma 2 的模型權(quán)重，也可在 Google AI Studio 中試用其功能。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

倉庫地址：

https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma：最先進(jìn)的安全分類器

正如其名，ShieldGemma 是最先進(jìn)的安全分類器，確保 AI 輸出內(nèi)容具有吸引力、安全、包容，檢測和減少有害內(nèi)容輸出。

ShieldGemma 的設(shè)計專門針對四個關(guān)鍵的有害領(lǐng)域：

仇恨言論
騷擾內(nèi)容
露骨內(nèi)容
危險內(nèi)容

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

這些開源分類器，是對谷歌現(xiàn)有的負(fù)責(zé)任 AI 工具包中安全分類器套件補(bǔ)充。

該工具包括一種基于有限數(shù)據(jù)點(diǎn)構(gòu)建針對特定策略分類器的方法，以及通過 API 提供的現(xiàn)成 Google Cloud 分類器。

ShieldGemma 基于 Gemma 2 構(gòu)建，是行業(yè)領(lǐng)先的安全分類器。

它提供了各種模型參數(shù)規(guī)模，包括 2B、9B、27B，都經(jīng)過英偉達(dá)速度優(yōu)化，在各種硬件中可以高效運(yùn)行。

其中，2B 非常適合在線分類任務(wù)，而 9B 和 27B 版本則為對延遲要求較低的離線應(yīng)用提供更高性能。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

Gemma Scope：通過開源稀疏自編碼器揭示 AI 決策過程

此次同時發(fā)布的另一大亮點(diǎn)，就是開源稀疏自編碼器 —— Gemma Scope 了。

語言模型的內(nèi)部，究竟發(fā)生了什么？長久以來，這個問題一直困擾著研究人員和開發(fā)者。語言模型的內(nèi)部運(yùn)作方式往往是一個謎，即使對于訓(xùn)練它們的研究人員，也是如此。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

而 Gemma Scope 就仿佛一個強(qiáng)大的顯微鏡，通過稀疏自編碼器（SAEs）放大模型中的特定點(diǎn)，從而使模型的內(nèi)部工作更易于解釋。

有了 Gemma Scope 以后，研究人員和開發(fā)者就獲得了前所未有的透明度，能夠深入了解 Gemma 2 模型的決策過程。

Gemma Scope 是數(shù)百個適用于 Gemma 2 9B 和 Gemma 2 2B 的免費(fèi)開放稀疏自動編碼器（SAE）的集合。

這些 SAEs 是專門設(shè)計的神經(jīng)網(wǎng)絡(luò)，可以幫助我們解讀由 Gemma 2 處理的密集、復(fù)雜信息，將其擴(kuò)展成更易于分析和理解的形式。

通過研究這些擴(kuò)展視圖，研究人員就可以獲得寶貴的信息，了解 Gemma 2 如何識別模式、處理信息、做出預(yù)測。

有了 Gemma Scope，AI 社區(qū)就可以更容易地構(gòu)建更易理解、負(fù)責(zé)任和可靠的 AI 系統(tǒng)了。

同時，谷歌 DeepMind 還放出了一份 20 頁的技術(shù)報告。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

技術(shù)報告：https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

總結(jié)來說，Gemma Scope 有以下 3 個創(chuàng)新點(diǎn) ——

開源 SAEs：超過 400 個免費(fèi)提供的 SAEs，覆蓋 Gemma 2 2B 和 9B 的所有層
互動演示：在 Neuronpedia 上無需編寫代碼，即可探索 SAE 功能，并分析模型行為
易于使用的資源庫：提供與 SAEs 和 Gemma 2 交互的代碼和示例

解讀語言模型內(nèi)部的運(yùn)作機(jī)制

語言模型的可解釋性問題，為什么這么難？

這要從 LLM 的運(yùn)行原理說起。

當(dāng)你向 LLM 提出問題時，它會將你的文本輸入轉(zhuǎn)換為一系列「激活」。這些激活映射了你輸入的詞語之間的關(guān)系，幫助模型在不同詞語之間建立聯(lián)系，據(jù)此生成答案。

在模型處理文本輸入的過程中，模型神經(jīng)網(wǎng)絡(luò)中不同層的激活代表了多個逐步高級的概念，這些概念被稱為「特征」。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

例如，模型的早期層可能會學(xué)習(xí)到像喬丹打籃球這樣的事實(shí)，而后期層可能會識別出更復(fù)雜的概念，例如文本的真實(shí)性。

用稀疏自編碼器解讀模型激活的示例 —— 模型是如何回憶「光之城是巴黎」這一事實(shí)的?？梢钥吹脚c法語相關(guān)的概念存在，而無關(guān)的概念則不存在

▲ 用稀疏自編碼器解讀模型激活的示例 —— 模型是如何回憶「光之城是巴黎」這一事實(shí)的?？梢钥吹脚c法語相關(guān)的概念存在，而無關(guān)的概念則不存在

然而，可解釋性研究人員卻一直面臨著一個關(guān)鍵問題：模型的激活，是許多不同特征的混合物。

在研究的早期，研究人員希望神經(jīng)網(wǎng)絡(luò)激活中的特征能與單個神經(jīng)元（即信息節(jié)點(diǎn)）對齊。

但不幸的是，在實(shí)踐中，神經(jīng)元對許多無關(guān)特征都很活躍。這也就意味著，沒有什么明顯的方法，能判斷出哪些特征是激活的一部分。

而這，恰恰就是稀疏自編碼器的用武之地。

要知道，一個特定的激活只會是少數(shù)特征的混合，盡管語言模型可能能夠檢測到數(shù)百萬甚至數(shù)十億個特征（也就是說，模型是稀疏地使用特征）。

例如，語言模型在回答關(guān)于愛因斯坦的問題時會想到相對論，而在寫關(guān)于煎蛋卷時會想到雞蛋，但在寫煎蛋卷時，可能就不會想到相對論了。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

稀疏自編碼器就是利用了這一事實(shí)，來發(fā)現(xiàn)一組潛在的特征，并將每個激活分解為少數(shù)幾個特征。

研究人員希望，稀疏自編碼器完成這項任務(wù)的最佳方式，就是找到語言模型實(shí)際使用的基本特征。

重要的是，在這個過程中，研究人員并不會告訴稀疏自編碼器要尋找哪些特征。因此，他們就能發(fā)現(xiàn)此前未曾預(yù)料過的豐富結(jié)構(gòu)。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

然而，因?yàn)樗麄儫o法立即知道這些被發(fā)現(xiàn)特征的確切含義，他們就會在稀疏自編碼器認(rèn)為特征「觸發(fā)」的文本示例中，尋找有意義的模式。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

以下是一個示例，其中根據(jù)特征觸發(fā)的強(qiáng)度，用藍(lán)色漸變高亮顯示了特征觸發(fā)的 Token：

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

用稀疏自編碼器發(fā)現(xiàn)特征激活的示例。每個氣泡代表一個 Token（單詞或詞片段），可變的藍(lán)色說明了這個特征的存在強(qiáng)度。在這個例子中，該特征顯然與成語有關(guān)

Gemma Scope 有何獨(dú)特之處？

比起此前的稀疏自編碼器，Gemma Scope 有許多獨(dú)特之處。

前者主要集中在研究小型模型的內(nèi)部工作原理或大型模型的單層。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

但如果要把可解釋性研究做得更深，就涉及到了解碼大型模型中的分層復(fù)雜算法。

這一次，谷歌 DeepMind 的研究者在 Gemma 2 2B 和 9B 的每一層和子層的輸出上，都訓(xùn)練了稀疏自編碼器。

這樣構(gòu)建出來的 Gemma Scope，總共生成了超過 400 個稀疏自編碼器，獲得了超過 3000 萬個特征（盡管許多特征可能重疊）。

這樣，研究人員就能夠研究特征在整個模型中的演變方式，以及它們?nèi)绾蜗嗷プ饔?，如何組合形成更復(fù)雜的特征。

此外，Gemma Scope 使用了最新的、最先進(jìn)的 JumpReLU SAE 架構(gòu)進(jìn)行了訓(xùn)練。

原始的稀疏自編碼器架構(gòu)，在檢測特征存在與估計強(qiáng)度這兩個目標(biāo)之間，往往難以平衡。而 JumpReLU 架構(gòu)，就能更容易地實(shí)現(xiàn)二者的平衡，并且顯著減少誤差。

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

當(dāng)然，訓(xùn)練如此多的稀疏自編碼器，也是一項重大的工程挑戰(zhàn)，需要大量的計算資源。

在這個過程中，研究者使用了 Gemma 2 9B 訓(xùn)練計算量的約 15%（不包括生成蒸餾標(biāo)簽所需的計算），將約 20 PiB 的激活保存到了磁盤（大約相當(dāng)于一百萬份英文維基百科的內(nèi)容），總共生成了數(shù)千億個稀疏自編碼器參數(shù)。

參考資料：

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

本文來自微信公眾號：微信公眾號（ID：null），作者：新智元，原標(biāo)題《iPhone 可跑 2B 小鋼炮！谷歌 Gemma 2 來襲，最強(qiáng)顯微鏡剖解 LLM 大腦》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

Gemma 2 2B：即刻在設(shè)備上使用

ShieldGemma：最先進(jìn)的安全分類器

Gemma Scope：通過開源稀疏自編碼器揭示 AI 決策過程

解讀語言模型內(nèi)部的運(yùn)作機(jī)制

Gemma Scope 有何獨(dú)特之處？

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

Gemma 2 2B：即刻在設(shè)備上使用

ShieldGemma：最先進(jìn)的安全分類器

Gemma Scope：通過開源稀疏自編碼器揭示 AI 決策過程

解讀語言模型內(nèi)部的運(yùn)作機(jī)制

Gemma Scope 有何獨(dú)特之處？

相關(guān)文章

iPhone 可跑 2B 小鋼炮：谷歌 Gemma 2 小模型來襲，跑分超 GPT-3.5

Gemma Scope 有何獨(dú)特之處？