2600 tokens / s：Meta 發(fā)布 Llama API，攜手 Cerebras 打造最快 AI 推理解決方案

2025/4/30 14:28:45 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 4 月 30 日消息，在首屆 LlamaCon 大會上，Meta 公司在推出獨立 AI 應(yīng)用之外，還發(fā)布了 Llama API，目前以免費預(yù)覽形式向開發(fā)者開放。

IT之家援引博文，Llama API 支持開發(fā)者測試包括 Llama 4 Scout 和 Llama 4 Maverick 在內(nèi)的最新模型，提供一鍵 API 密鑰創(chuàng)建以及輕量級的 TypeScript 和 Python SDK。

開發(fā)者可通過一鍵創(chuàng)建 API 密鑰，快速上手使用，同時 API 還提供輕量級的 TypeScript 和 Python SDK。為了方便開發(fā)者從 OpenAI 平臺遷移應(yīng)用，Llama API 完全兼容 OpenAI SDK。

Meta Llama API

Meta 還聯(lián)手 Cerebras 和 Groq，進一步優(yōu)化 Llama API 的性能。Cerebras 宣稱，其 Llama 4 Cerebras 模型的 tokens 生成速度高達 2600 tokens / s，比 NVIDIA 等傳統(tǒng) GPU 解決方案快 18 倍。

根據(jù) Artificial Analysis 基準測試數(shù)據(jù)，這一速度遠超 ChatGPT 的 130 tokens / s 和 DeepSeek 的 25 tokens / s。

Cerebras CEO 兼聯(lián)合創(chuàng)始人 Andrew Feldman 表示：“我們很自豪能讓 Llama API 成為全球最快的推理 API。開發(fā)者在構(gòu)建實時應(yīng)用時需要極致速度，Cerebras 的加入讓 AI 系統(tǒng)性能達到 GPU 云無法企及的高度。”

此外，Groq 提供的 Llama 4 Scout 模型速度為 460 tokens / s，雖不及 Cerebras，但仍比其他 GPU 方案快 4 倍。在 Groq 上，Llama 4 Scout 每百萬 tokens 輸入費用為 0.11 美元，每百萬 tokens 輸出費用為 0.34 美元；Llama 4 Maverick 每百萬 tokens 輸入費用為 0.50 美元，每百萬 tokens 輸出費用為 0.77 美元。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

2600 tokens / s：Meta 發(fā)布 Llama API，攜手 Cerebras 打造最快 AI 推理解決方案

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

2600 tokens / s：Meta 發(fā)布 Llama API，攜手 Cerebras 打造最快 AI 推理解決方案

相關(guān)文章

2600 tokens / s：Meta 發(fā)布 Llama API，攜手 Cerebras 打造最快 AI 推理解決方案