在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

圖靈獎(jiǎng)得主 LeCun 加盟 AI 芯片黑馬 Groq,估值 28 億美元挑戰(zhàn)英偉達(dá)

新智元 2024/8/6 14:42:53 責(zé)編:遠(yuǎn)洋

英偉達(dá)又雙叒迎來(lái)強(qiáng)勁挑戰(zhàn)者了。

成立于 2016 年的初創(chuàng)公司 Groq 在最新一輪融資中籌集了 6.4 億美元,由 BlackRock Inc. 基金領(lǐng)投,并得到了思科和三星投資部門的支持。

目前,Groq 的估值已經(jīng)達(dá)到 28 億美元。公司創(chuàng)始人 Jonathan Ross 曾在谷歌從事 TPU 芯片的開發(fā),而 Groq 目前的頂梁柱 LPU 也是專門用于加速 AI 基礎(chǔ)模型,尤其是 LLM。

Ross 表示,一旦人們看到在 Groq 的快速引擎上使用大語(yǔ)言模型有多么方便,LLM 的使用量將會(huì)進(jìn)一步增加。

以更低的價(jià)格和能耗,達(dá)到與英偉達(dá)芯片相同的速度,甚至更快,讓 Groq 有底氣叫板英偉達(dá)。值得一提的是,Groq 還宣布,圖靈獎(jiǎng)得主 LeCun 即將擔(dān)任技術(shù)顧問(wèn)。LeCun 的正式加入,成為 Groq 在競(jìng)爭(zhēng)激烈的芯片領(lǐng)域一個(gè)強(qiáng)大的盟友。

每秒 1256.54 個(gè) token,快如閃電

天下武功,唯快不破。而能打敗每秒響應(yīng) 800 個(gè) token 的 Groq 只有下一代的 Groq。

從 500 token 到 800 token 再到 1256.54 token / s,Groq 如此之快的速度可謂是讓一眾 GPU 望塵莫及。

隨著 7 月初新功能的低調(diào)發(fā)布,Groq 現(xiàn)在的結(jié)果要比之前演示的要快得多,也智能得多,不僅支持文本查詢,還能輸入語(yǔ)音命令進(jìn)行查詢。

默認(rèn)情況下,Groq 的網(wǎng)站引擎使用 Meta 的開源 Llama3-8b-8192 大語(yǔ)言模型。

用戶還可以選擇更大的 Llama3-70b,以及來(lái)自 Google 的 Gemma 和 Mistral 模型,并且很快也將支持其他模型。

這種快速且靈活的體驗(yàn)對(duì)于開發(fā)者來(lái)說(shuō)非常重要。在傳統(tǒng) AGI 處理數(shù)據(jù)時(shí),等待是稀松平常的事情,要看著字符一個(gè)一個(gè)吐出來(lái)再進(jìn)行下一步的操作。

而在最新版本的 Groq 中,以上任務(wù)幾乎全部瞬間回答,快如閃電。舉個(gè)栗子。比如,在 Groq 上讓它評(píng)論 VB Transform 活動(dòng)議程有哪些地方可以加以改進(jìn)。

1225.15token / s 的速度 —— 幾乎就在一瞬間回答就彈了出來(lái)。

而且內(nèi)容也十分詳細(xì)清楚,包括建議更清晰的分類、更詳細(xì)的會(huì)議描述和更好的演講者簡(jiǎn)介等等,共十點(diǎn)修改意見(jiàn)。

當(dāng)語(yǔ)音輸入要求推薦一些優(yōu)秀的演講者以使陣容更加多樣化時(shí),它立即生成了一份名單,姓名、所屬組織和可供選擇的演講主題給你安排的明明白白的,并且以清晰表格格式呈現(xiàn)。

要求它追加一列聯(lián)系方式,也瞬間補(bǔ)充好郵箱地址和推特賬號(hào),不在話下。

再舉個(gè)栗子。視頻中巴拉巴拉說(shuō)了一分多鐘,要求 Groq 為下周的演講課程創(chuàng)建一個(gè)日程表格。

Groq 不僅耐心地聽懂了,創(chuàng)建了要求的表格,還允許快速輕松地進(jìn)行修改,包括拼寫更正。

還可以改變主意,要求它為我忘記要求的內(nèi)容創(chuàng)建額外的欄目,耐心高效細(xì)致,甲方眼里的完美乙方不過(guò)如此。

還可以翻譯成不同的語(yǔ)言。有時(shí)會(huì)出現(xiàn)發(fā)出了幾次請(qǐng)求才做出更正的情況,但這種錯(cuò)誤一般是在 LLM 層面,而不是處理層面。

可以說(shuō),從 500 token / s 到 800 token / s 再到如今直接拉到每秒四位數(shù)的生成速度,把 GPT-4 和英偉達(dá)秒的更徹底了。

當(dāng)然,除了「快」之外,此次更新的另一亮點(diǎn)是除了引擎內(nèi)直接輸入查詢,還允許用戶通過(guò)語(yǔ)音命令進(jìn)行查詢。

Groq 使用了 OpenAI 的最新開源的自動(dòng)語(yǔ)音識(shí)別和翻譯模型 Whisper Large v3,將語(yǔ)音轉(zhuǎn)換為文本,然后作為 LLM 的提示。

提速增效再加多模態(tài)輸入,不卡頓還能不打字,這種創(chuàng)新的使用方式為用戶提供了極大的便利。

Groq + Llama 3 強(qiáng)強(qiáng)聯(lián)合

7 月 17 日,Groq 的研究科學(xué)家 Rick Lamers 又在推特上官宣了一個(gè)「秘密項(xiàng)目」—— 微調(diào)出的 Llama3 Groq Synth Tool Use 模型 8B 和 70B 型號(hào),旨在提升 AI 的工具使用和函數(shù)調(diào)用能力。

團(tuán)隊(duì)結(jié)合了全量微調(diào)和直接偏好優(yōu)化(DPO),并且完全使用符合道德規(guī)范的生成數(shù)據(jù),沒(méi)有涉及任何用戶數(shù)據(jù)。

伯克利函數(shù)調(diào)用排行榜(Berkeley Function-Calling Leaderboard, BFCL)中的數(shù)據(jù)全部來(lái)源于真實(shí)世界,專門用于評(píng)估 LLM 調(diào)用工具或函數(shù)的的能力。

Groq 本次發(fā)布的微調(diào) Llama3 8B 和 70B 的版本都在 BFCL 上取得了相當(dāng)驚艷的成績(jī),總體準(zhǔn)確率分別為 90.76% 和 89.06%。

其中,70B 版本的分?jǐn)?shù)超過(guò)了 Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o 和 Gemini 1.5 Pro 等專有模型,達(dá)到了 BFCL 榜單第一的位置。

兩個(gè)版本的模型都已開源,用戶可從 HuggingFace 上下載權(quán)重或通過(guò) GroqCloud 訪問(wèn)。

HugggingFace 地址:https://huggingface.co/ Groq

此外,Groq 還在 Llama 3 的基礎(chǔ)上進(jìn)一步發(fā)揮自己「唯快不破」的秘籍,推出了一款名為 Groqbook 的應(yīng)用程序,可以在 1 分鐘內(nèi)內(nèi)生成出一整本書。

GitHub 地址:https://github.com/ Bklieger / groqbook

根據(jù) GitHub 主頁(yè)的介紹,Groqbook 混合使用了 Llama3-8B 和 70B 兩個(gè)模型,用較大模型生成結(jié)構(gòu),再讓較小模型創(chuàng)作具體內(nèi)容。

目前,這個(gè)程序只適用于非虛構(gòu)類書籍,并需要用戶輸入每一章節(jié)的標(biāo)題作為上下文。

Groq 表示,未來(lái)將讓 Groqbook 生成整本書內(nèi)容,并擴(kuò)展到虛構(gòu)類書籍,創(chuàng)作出高質(zhì)量的小說(shuō)。

開發(fā)者 4 個(gè)月突破 28 萬(wàn)

解決了用戶使用的核心痛點(diǎn),Groq 自然備受使用者歡迎。

上線 4 個(gè)月后,Groq 已經(jīng)開始免費(fèi)提供服務(wù)來(lái)處理 LLM 工作負(fù)載,吸引了超過(guò) 28.2 萬(wàn)名開發(fā)者使用。

Groq 提供了一個(gè)平臺(tái)供開發(fā)者構(gòu)建他們的應(yīng)用程序,類似于其他推理服務(wù)提供商。

然而,Groq 的特別之處在于,它允許在 OpenAI 上構(gòu)建應(yīng)用程序的開發(fā)者通過(guò)簡(jiǎn)單的步驟在幾秒鐘內(nèi)將他們的應(yīng)用程序遷移到 Groq。

Ross 表示他將很快專注于需求量極大的企業(yè)市場(chǎng)。大公司正在廣泛推進(jìn) AI 應(yīng)用的部署,因此需要更高效的處理能力來(lái)應(yīng)對(duì)他們的工作負(fù)載。

Groq 表示,其技術(shù)在最壞情況下使用的功率約為 GPU 的三分之一,而大多數(shù)工作負(fù)載僅使用十分之一的功率。

在 LLM 工作負(fù)載不斷擴(kuò)展、能源需求持續(xù)增長(zhǎng)的背景下,Groq 的高效性能對(duì) GPU 主導(dǎo)的計(jì)算領(lǐng)域構(gòu)成了挑戰(zhàn)。

Nvidia 雖然擅長(zhǎng) AI 訓(xùn)練但在推理方面存在局限,Groq 的芯片在推理速度和成本上都有數(shù)倍優(yōu)勢(shì),未來(lái)推理市場(chǎng)的份額將從現(xiàn)在的 5% 提升到 90%-95%。

Ross 自信聲稱,到明年底將部署 150 萬(wàn)個(gè) LPU,占據(jù)全球推理需求半壁江山。

LPU:快,真的快

目前來(lái)說(shuō),模型訓(xùn)練雖然首選 GPU,但是部署 AI 應(yīng)用程序時(shí),更高的效率和更低的延遲也極為重要。

正如 Groq 第一次闖入大眾視野是因?yàn)橐粋€(gè)字,「快」,Groq 此次提速繼續(xù)在速度的賽道狂飆。

Groq 承諾可以比競(jìng)爭(zhēng)對(duì)手更快更經(jīng)濟(jì)地完成任務(wù),在一定程度上得益于其語(yǔ)言處理單元(LPU)。

相比 GPU,LPU 減少了管理多個(gè)線程的開銷,并避免了核心利用率不足。此外,Groq 的芯片設(shè)計(jì)還允許連接多個(gè)專用核心,而不會(huì)出現(xiàn) GPU 集群中出現(xiàn)的傳統(tǒng)瓶頸。

LPU 的工作原理和 GPU 存在顯著差異,具體來(lái)說(shuō),LPU 采用的是時(shí)序指令集計(jì)算機(jī)(Temporal Instruction Set Computer)架構(gòu),這一架構(gòu)的特性就是無(wú)需像依賴高帶寬存儲(chǔ)器(HBM)的 GPU 那樣,頻繁地從內(nèi)存中加載數(shù)據(jù)。

LPU 不依賴外部?jī)?nèi)存,其權(quán)重、鍵值緩存(KV Cache)和激活函數(shù)等數(shù)據(jù)在處理期間全部存儲(chǔ)在芯片內(nèi),不僅能夠巧妙規(guī)避 HBM 短缺所帶來(lái)的困擾,還能切實(shí)有效地削減成本。

與 Nvidia GPU 對(duì)高速數(shù)據(jù)傳輸?shù)囊蕾囉兴煌?,Groq 的 LPU 在其系統(tǒng)架構(gòu)中并未采用 HBM,而是選用了 SRAM。

由于每塊芯片只配備了 230MB 的 SRAM,沒(méi)有任何復(fù)雜的模型能夠僅通過(guò)單個(gè)芯片運(yùn)行。值得一提的是,SRAM 的速度相較 GPU 所使用的存儲(chǔ)器約快 20 倍。

鑒于 AI 的推理計(jì)算所需的數(shù)據(jù)量相較于模型訓(xùn)練大幅減少,Groq 的 LPU 展現(xiàn)出更為出色的節(jié)能優(yōu)勢(shì)。

在執(zhí)行推理任務(wù)時(shí),其從外部?jī)?nèi)存讀取的數(shù)據(jù)量顯著降低,所消耗的電量也明顯低于 GPU。

遺憾的是,英偉達(dá)的 GPU 可以同時(shí)用于訓(xùn)練和推理,但 LPU 僅為模型推理設(shè)計(jì)。

參考資料:

  • https://venturebeat.com/ai/groq-releases-blazing-fast-llm-engine-passes-270000-user-mark/

  • https://the-decoder.com/ai-startup-groq-raises-640-million-to-challenge-nvidias-dominance-in-ai-chips/

本文來(lái)自微信公眾號(hào):微信公眾號(hào)(ID:null),作者:新智元

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:LeCun,Groq人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知