開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

新智元 2024/4/20 20:26:06 責(zé)編：問舟

評論：

近日，LLM 競技場更新了戰(zhàn)報，Command R + 推出不到一周，就成了歷史上第一個擊敗了 GPT-4 的開源模型！目前，Command R + 已經(jīng)上線 HuggingChat，可以免費(fèi)試玩。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

排行榜地址：https://huggingface.co/ spaces / lmsys / chatbot-arena-leaderboard

截至小編碼字的這個時間，競技場排行榜更新到了 4 月 11 號，Command R + 拿到了 2.3 萬的投票，綜合得分超越了早期版本的 GPT-4（0613），和 GPT-4-0314 版本并列第 7 位，—— 而它可是一個開源模型（不允許商用）。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

這邊建議 Altman，不管是 GPT-4.5 還是 GPT-5，趕緊端上來吧，不然家都被偷沒了。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

不過事實(shí)上 OpenAI 也沒閑著，在被 Claude 3 一家屠榜，忍受了短暫的屈辱之后，很快就放出了一個新版本（GPT-4-Turbo-2024-04-09），直接重歸王座。

這也導(dǎo)致排行榜上大家的排名瞬間都掉了一位，本來 Command R + 在 9 號的版本中是排位全球第 6 的。

—— 大哥你不講武德！

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

盡管如此，Command R + 作為首個擊敗了 GPT-4 的開源模型，也算是讓開源社區(qū)揚(yáng)眉吐氣了一把，而且這可是大佬認(rèn)可的堂堂正正的對決。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

Cohere 的機(jī)器學(xué)習(xí)總監(jiān) Nils Reimers 還表示，這還不是 Command R + 的真實(shí)實(shí)力，它的優(yōu)勢區(qū)間是 RAG 和工具使用的能力，而這些外掛能力在 LLM 競技場中沒有用到。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

事實(shí)上，在 Cohere 官方將 Command R + 描述為「RAG 優(yōu)化模型」。

「割麥子」和最大的開源模型

毫無疑問，Cohere 是當(dāng)前 AI 領(lǐng)域的獨(dú)角獸，而它的聯(lián)合創(chuàng)始人兼 CEO，正是大名鼎鼎的「Transformer 八子」之一的「割麥子」（Aidan Gomez）。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

Aidan Gomez

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

作為 Transformer 最年輕的作者，一出手就是最大規(guī)模的開源模型：

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

正面對戰(zhàn) claude-3, mistral-large, gpt-4 turbo；
1040 億參數(shù)；
使用多步驟工具和 RAG 構(gòu)建；
支持 10 種語言；
上下文長度為 128K；
基于上下文的引用和響應(yīng)；
針對代碼能力進(jìn)行了優(yōu)化；
提供 4 位和 8 位的量化版本。

Command R + 專為實(shí)際企業(yè)用例而構(gòu)建，專注于平衡高效率和高精度，使企業(yè)能夠超越概念驗(yàn)證，并通過 AI 進(jìn)入生產(chǎn)。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

huggingface 地址：https://huggingface.co/ CohereForAI / c4ai-command-r-plus

量化版本：https://huggingface.co/ CohereForAI / c4ai-command-r-plus-4bit

—— 當(dāng)然了，1040 億的參數(shù)量，相比于前段時間 Musk 開源的 Grok-1（3140 億）還差了一些，但 Command R + 并非 Grok 那種 MoE 架構(gòu)，

所以這 1040 億參數(shù)是實(shí)打?qū)嵉耐耆糜谕评?，?Grok-1 的活躍參數(shù)為 860 億 —— 從這個角度來看，說 Command R + 是目前規(guī)模最龐大的開源模型也不為過。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

作為 Command R 的進(jìn)化版本，進(jìn)一步全面提高了性能。主要優(yōu)勢包括：

-高級檢索增強(qiáng)生成（RAG）與引用以減少幻覺
-10 種主要語言的多語言覆蓋，支持全球業(yè)務(wù)運(yùn)營
-工具的運(yùn)用以自動化復(fù)雜的業(yè)務(wù)流程

在性能優(yōu)于競品的同時，Command R + 還提供了相對低得多的價格。

目前，Cohere 已經(jīng)與多家大廠合作，并將 LLM 部署到了 Amazon Sagemaker 和 Microsoft Azure。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

上面左圖展示了 Azure 上可用的模型，在三個關(guān)鍵功能方面的性能比較（模型在基準(zhǔn)測試中的平均得分）：多語言、RAG 和工具使用。

右圖比較了 Azure 上可用模型的每百萬個輸入和輸出 token 成本。

行業(yè)領(lǐng)先的 RAG 解決方案

企業(yè)想通過專有數(shù)據(jù)定制自己的 LLM，就必然繞不開 RAG。

Command R + 針對高級 RAG 進(jìn)行了優(yōu)化，可提供高度可靠、可驗(yàn)證的解決方案。

新模型提高了響應(yīng)的準(zhǔn)確性，并提供了減輕幻覺的內(nèi)聯(lián)引用，可幫助企業(yè)使用 AI 進(jìn)行擴(kuò)展，以快速找到最相關(guān)的信息，

支持跨財務(wù)、人力資源、銷售、營銷和客戶支持等業(yè)務(wù)職能部門的任務(wù)。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

上面左圖是在人類偏好上的評估比較結(jié)果，包括文本流暢度、引文質(zhì)量和整體效用，其中引文是在連接到源文檔塊的摘要上衡量的。

這里使用了 250 個高度多樣化的文檔和摘要請求的專有測試集，包含類似于 API 數(shù)據(jù)的復(fù)雜指令?；€模型經(jīng)過了廣泛的提示設(shè)計，而 Command R + 使用 RAG-API。

右圖衡量了由各種模型提供支持的多跳 REACT 代理的準(zhǔn)確性，可以訪問從維基百科（HotpotQA）和互聯(lián)網(wǎng)（Bamboogle、StrategyQA）檢索的相同搜索工具。

HotpotQA 和 Bamboogle 的準(zhǔn)確性由提示評估者（Command R、GPT3.5 和 Claude3-Haiku）的三方多數(shù)投票來判斷，以減少已知的模型內(nèi)偏差。

這里使用人工注釋對一千個示例子集進(jìn)行了驗(yàn)證。StrategyQA 的準(zhǔn)確性是使用以是 / 否判斷結(jié)尾的長格式答案來判斷的。

使用工具自動執(zhí)行復(fù)雜流程

作為大語言模型，除了攝取和生成文本的能力，還應(yīng)該能夠充當(dāng)核心推理引擎：能夠做出決策并使用工具來自動化需要智能才能解決的困難任務(wù)。

為了提供這種能力，Command R + 提供了工具使用功能，可通過 API 和 LangChain 訪問，以無縫地自動化復(fù)雜的業(yè)務(wù)工作流程。

企業(yè)用例包括：自動更新客戶關(guān)系管理（CRM）任務(wù)、活動和記錄。

Command R + 還支持多步驟工具使用，它允許模型在多個步驟中組合多個工具來完成困難的任務(wù)，—— 甚至可以在嘗試使用工具并失敗時進(jìn)行自我糾正，以提高成功率。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

上圖為使用 Microsoft 的 ToolTalk（Hard）基準(zhǔn)測試，和伯克利的函數(shù)調(diào)用排行榜（BFCL）評估對話工具使用和單輪函數(shù)調(diào)用功能。

對于 ToolTalk，預(yù)測的工具調(diào)用是根據(jù)基本事實(shí)進(jìn)行評估的，總體對話成功指標(biāo)取決于模型召回所有工具調(diào)用和避免不良操作（即具有不良副作用的工具調(diào)用）的可能性。

對于 BFCL，這里使用了 2024 年 3 月的版本，在評估中包含了錯誤修復(fù)，并報告了可執(zhí)行子類別的平均函數(shù)成功率得分。通過額外的人工評估清理步驟驗(yàn)證了錯誤修復(fù)，以防止誤報。

多語言支持

Command R + 在全球業(yè)務(wù)的 10 種關(guān)鍵語言中表現(xiàn)出色：中文、英語、法語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語、阿拉伯語。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

上圖為 FLoRES（法語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語、阿拉伯語和中文）以及 WMT23（德語、日語和中文）翻譯任務(wù)的模型比較。

此外，Command R + 還具有一個優(yōu)秀的分詞器，可以比市場上其他模型使用的分詞器更好地壓縮非英語文本，能夠?qū)崿F(xiàn)高達(dá) 57% 的成本降低。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

上圖比較了 Cohere、Mistral 和 OpenAI 分詞器為不同語言生成的 token 數(shù)量。

Cohere 分詞器生成的表示相同文本的 token 要少得多，尤其在非拉丁文字語言上減少的幅度特別大。比如在日語中，OpenAI 分詞器輸出的 token 數(shù)量是 Cohere 分詞器的 1.67 倍。

價格

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

網(wǎng)友評價

Command R + 的開源點(diǎn)燃了網(wǎng)友們的熱情，網(wǎng)友表示：「GPT-4 級性能，在家運(yùn)行」。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

不知道這 3.15G 的內(nèi)存占用是什么情況？

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

「感謝 Cohere 做了 Mistral 沒有做的事情」。

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

「根據(jù)我有限的初始測試，這是目前可用的最好的模型之一...... 而且它絕對有一種風(fēng)格，感覺很好。感覺不像是 ChatGPT 主義的填充模型?！?/p>

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

—— 是時候?yàn)樽约杭右粔K顯卡了！

上線 HuggingChat

目前，Command R + 已經(jīng)上線 HuggingChat（https://huggingface.co/ chat），最強(qiáng)開源模型，大家趕快玩起來！

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

問：等紅燈是在等紅燈還是等綠燈？

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

解釋一下咖啡因來自咖啡果：

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

請回答弱智吧問題：隕石為什么每次都能精準(zhǔn)砸到隕石坑？

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

我想配個 6000 多的電腦，大概要多少錢？

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

HuggingFace 聯(lián)創(chuàng) Thomas Wolf 曾表示，最近在 LLM 競技場上的情況發(fā)生了巨大變化：

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

Anthropic 的 Claude 3 家族成了閉源模型的贏家（曾經(jīng)）；而 Cohere 的 Command R + 是開源模型的新領(lǐng)導(dǎo)者。

2024 年，在開源和閉源兩條道路上，LLM 都發(fā)展迅猛。

最后，放上兩張 LLM 競技場的當(dāng)前戰(zhàn)況：

模型 A 在所有非平局 A 與 B 戰(zhàn)斗中獲勝的比例：

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

每種模型組合的戰(zhàn)斗計數(shù)（無平局）：

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線

參考資料：

https://venturebeat.com/ai/coheres-command-r-now-available-on-huggingchat/
https://twitter.com/lmsysorg/status/1777630133798772766

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

開源模型打敗 GPT-4：LLM 競技場最新戰(zhàn)報，Cohere Command R + 上線