在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

小米大模型提效新框架 SUBLLM:訓(xùn)練最高提速 34%、推理最高提速 52%,Kaldi 之父合作出品

量子位 2024/6/24 16:55:11 責(zé)編:汪淼

大模型推理速度提升 50% 以上,還能保證少樣本學(xué)習(xí)性能!

小米大模型團(tuán)隊(duì)提出 SUBLLMSubsampling-Upsampling-Bypass Large Language Model),國(guó)際 AI 語(yǔ)音大牛、開(kāi)源語(yǔ)音識(shí)別工具 Kaldi 之父 Daniel Povey 也參與指導(dǎo)。

與 Llama 等模型相比,SUBLLM 在訓(xùn)練和推理速度以及降低內(nèi)存方面都有了顯著提升。

在大模型訓(xùn)練中,SUBLLM 的速度提高了 26%,每個(gè) GPU 的內(nèi)存減少了 10GB。在推理中,它的速度提高了 37%,每個(gè) GPU 的內(nèi)存減少了 1GB。訓(xùn)練和推理速度分別最高可以提高至 34% 和 52%。

SUBLLM 通過(guò)智能地選擇和處理數(shù)據(jù),使得模型在訓(xùn)練和推理時(shí)更加高效:子采樣模塊剔除不必要的信息,上采樣模塊恢復(fù)數(shù)據(jù)的完整性,而繞過(guò)模塊則加快了學(xué)習(xí)過(guò)程。

在一萬(wàn)字中挑選最關(guān)鍵的五百字

目前,云端的大模型處理超長(zhǎng)文本任務(wù),通常需要?jiǎng)佑枚噙_(dá) 8 個(gè) GPU,這個(gè)過(guò)程不僅耗時(shí),而且成本昂貴。如果將大模型類比于人腦,那么當(dāng)前大模型的運(yùn)行功率相比于人腦運(yùn)行功率的 100 倍以上。

此前,Daniel Povey 在語(yǔ)音識(shí)別領(lǐng)域提出了 Zipformer,Zipformer 可以用最低壓縮 16 倍的幀率,達(dá)到與更大模型一致甚至更高的語(yǔ)音識(shí)別率,完成了語(yǔ)音識(shí)別領(lǐng)域的“四兩撥千斤”。

小米集團(tuán)大模型團(tuán)隊(duì)嘗試將這一思路擴(kuò)展至大型語(yǔ)言模型中,在性能不受損害的前提下,實(shí)現(xiàn)了更高效率的大模型運(yùn)算。

總的來(lái)說(shuō),SUBLLM 的工作原理通過(guò)引入子采樣、上采樣和旁路模塊等方式,對(duì)計(jì)算資源動(dòng)態(tài)分配,從而減少了冗余的 token 計(jì)算負(fù)擔(dān),加速了模型的訓(xùn)練和推理過(guò)程。

能做到就像在一萬(wàn)字中挑選最關(guān)鍵的五百字一樣,保留文本中必需的部分,刪減其中的冗余,從而讓大模型所需處理的文本更短。

就實(shí)現(xiàn)路徑而言,會(huì)將子采樣模塊根據(jù) token 的重要性分?jǐn)?shù)對(duì)其進(jìn)行篩選,保留重要的 token 并丟棄不重要的部分。

隨后,上采樣模塊將子采樣后的序列恢復(fù)到原始長(zhǎng)度,確保語(yǔ)言模型在生成 token 時(shí)的順序一致性。

同時(shí),旁路模塊通過(guò)結(jié)合子采樣前后的序列,進(jìn)一步提高了模型的收斂速度。這種設(shè)計(jì)不僅顯著減少了計(jì)算成本,還保持了輸入序列的語(yǔ)義完整性。

如果將 SUBLLM 理解為一個(gè)聰明的編輯,就像我們的大腦會(huì)識(shí)別要點(diǎn)一樣,它可以在閱讀一大段文字時(shí)快速識(shí)別出哪些詞是關(guān)鍵的,哪些詞不那么重要。SUBLLM 會(huì)保留那些重要的詞匯,而忽略那些不太重要的部分,這就大大減少了需要處理的信息量。

隨后,就像我們能通過(guò)只言片語(yǔ)補(bǔ)充完整故事的來(lái)龍去脈,SUBLLM 也能將精簡(jiǎn)后的信息恢復(fù)到原有的完整度,確保整個(gè)文本在表達(dá)時(shí)的連貫與完整。在處理信息時(shí),SUBLLM 還能更加迅速地找到最佳的表達(dá)方式。

接下來(lái)具體看 SUBLLM 的模型結(jié)構(gòu)。

SUBLLM 具體長(zhǎng)啥樣?

前不久,谷歌 Deepmind 提出了 mixture of depths(MoD)模型結(jié)構(gòu),MoD 使用靜態(tài)計(jì)算預(yù)算,使用每個(gè)塊的路由器選擇 token 進(jìn)行計(jì)算,并通過(guò)對(duì)自注意力和 MLP 塊或殘差連接的選擇來(lái)優(yōu)化 FLOP 使用。

更早以前,經(jīng)典論文 CoLT5 使用條件路由來(lái)決定給定 token 是通過(guò)輕量分支還是重量分支在前饋和注意力層中傳遞,以便將更多資源分配給重要 token。

與這些模型結(jié)構(gòu)類似,SUBLLM 采用的原理接近于人腦對(duì)于信息的處理機(jī)制。

人腦有兩種思維模式,一種低功耗的快模式,一種高功耗的慢模式,分工明確,且兩種模式恰恰用的是同一個(gè)腦部區(qū)域。

因此,SUBLLM 作者也從這一信息處理模式的角度思考了如何將大模型的算力進(jìn)行合理地分配:重要的 token 用全部算力,相對(duì)不重要的 token 使用更少算力。

具體來(lái)說(shuō),SUBLLM 的模型結(jié)構(gòu)是基于 decoder-only 的大語(yǔ)言模型架構(gòu),在不改變?cè)心P徒Y(jié)構(gòu)的基礎(chǔ)上,在一些特殊的層上進(jìn)行了結(jié)構(gòu)升級(jí)。

為了管理要處理的 token 數(shù)量,子采樣和上采樣模塊被集成到 Transformer 塊之間。

首先,模型使用幾個(gè) Transformer 塊處理完整序列,捕獲全面的 token 序列表示。引入子采樣模塊后,這些模塊暫時(shí)去除不關(guān)鍵的 token,從而減少處理所需的序列長(zhǎng)度。

然后對(duì)縮減后的序列進(jìn)行更多次的子采樣過(guò)程,也就是序列的縮減是嵌套的。序列壓縮的最高級(jí)別發(fā)生在網(wǎng)絡(luò)的最中間的 Transformer 塊中。

隨后,使用上采樣模塊逐步恢復(fù)序列長(zhǎng)度。這些模塊將較短的處理序列與子采樣前的原始序列合并,將它們恢復(fù)到完整長(zhǎng)度。

這種機(jī)制允許僅解碼器模型作為語(yǔ)言模型操作,按順序生成 token,保證輸入和輸出序列長(zhǎng)度相同。

此外,上采樣過(guò)程后集成了繞過(guò)連接模塊,以利用每個(gè)子采樣前的嵌入,幫助改進(jìn)從子采樣到上采樣的學(xué)習(xí)過(guò)程。

隨后的實(shí)驗(yàn)證實(shí),這種方法顯著提高了收斂效率。

與 LLaMA 模型相比,SUBLLM 在訓(xùn)練和推理方面分別實(shí)現(xiàn)了 26% 和 37% 的速度提升,同時(shí)顯著降低了內(nèi)存成本,同時(shí)保持了性能。

預(yù)訓(xùn)練階段、推理階段計(jì)算效率的詳細(xì)分析:

論文鏈接:https://arxiv.org/abs/2406.06571

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:小米大模型,SUBLLM

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知