首頁(yè) > 智能時(shí)代>人工智能

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

新智元 2023/12/10 15:30:42 責(zé)編：遠(yuǎn)洋

評(píng)論：

新智元報(bào)道

編輯：Aeneas 好困

【新智元導(dǎo)讀】大模型巔峰對(duì)決開啟，Gemini 和 GPT-4 展開大 pk！代碼和數(shù)學(xué) Gemini 慘遭 GPT-4 碾壓，但要論講笑話和寫作，它的答案卻意外的好笑。

被谷歌寄予厚望的復(fù)仇殺器 Gemini，是否能夠如愿單挑 ChatGPT？

最近幾天，外媒記者和網(wǎng)友們紛紛放出實(shí)測(cè)，比較了 Gemini Pro 加持的新 Bard 與 GPT-3.5 和 GPT-4 的各項(xiàng)性能。

先說(shuō)結(jié)果 ——ChatGPT 略勝一籌，但 Gemini 進(jìn)步巨大。

雖然宣傳手段有一些夸大的成分，但谷歌確實(shí)靠 Gemini 在 LLM 大戰(zhàn)中挽回了一些頹勢(shì)。

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

而且，現(xiàn)在雙方都還捂著殺手锏沒(méi)有放出來(lái)，真正的巔峰對(duì)決，恐怕要等 Gemini Ultra 或者集成了 OpenAI 神秘 Q * 技術(shù)的新模型出場(chǎng)后了。

超大杯還沒(méi)來(lái)，大杯臨時(shí)頂上

需要強(qiáng)調(diào)的是，此次出戰(zhàn)的選手 Gemini Pro 只是「二弟」，因?yàn)樘?hào)稱「在 32 個(gè)廣泛使用的學(xué)術(shù)基準(zhǔn)測(cè)試中擊敗 GPT-4」的老大哥 Gemini Ultra 還未放出。

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

而且，由于目前只有純文本提示用上了 Gemini Pro。

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

所以，Bard 暫時(shí)還沒(méi)有得到加持的圖像理解能力，依然很拉跨……

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

來(lái)源：馬里蘭大學(xué)博士生 Fuxiao Liu

頂級(jí)模型的內(nèi)卷

早在 4 月，就有許多人做過(guò) PaLM 支持的 Bard 和 GPT-4 的 pk，當(dāng)時(shí)的結(jié)果是 GPT-4 七局五勝，略勝 Bard 一籌。

這次對(duì)決中，也考慮進(jìn)了 Bard 在四月的結(jié)果，因此可以用來(lái)衡量幾個(gè)月來(lái)谷歌的進(jìn)步速度。

這些測(cè)試雖不夠全面，但也提供了一個(gè)很好的基準(zhǔn)，可以用來(lái)判斷這些 AI 聊天助手在普通用戶日常任務(wù)中的表現(xiàn)。

話不多說(shuō)，現(xiàn)在開始！

代碼編程

既然谷歌這次大吹特吹了全新的 AlphaCode 2，那我們首先就來(lái)看看它們的編程水平如何。

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

題目：Write a Python script that says "Hello World," then creates a random repeating string of characters endlessly.

編寫一個(gè) Python 腳本，在其中輸入「Hello World」，然后不停地隨機(jī)創(chuàng)建一個(gè)重復(fù)字符串。

PaLM Bard 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

首先，初代的 Bard 非常簡(jiǎn)陋，并不能生成代碼。

不過(guò)，谷歌后來(lái)在 6 月的時(shí)候，給它加上了這個(gè)功能。（但并沒(méi)有針對(duì)這個(gè)題目進(jìn)行過(guò)測(cè)試）

Gemini Pro Bard 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

可以看到，新版 Bard 生成的代碼沒(méi)什么大問(wèn)題，但需要在前面添加一個(gè) import string 才能運(yùn)行。

好在，這個(gè) bug 很容易解決。

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

然而，不知道是因?yàn)楹闷婢W(wǎng)友太多導(dǎo)致負(fù)荷超載，還是系統(tǒng)本身就不穩(wěn)定。

針對(duì)這道題，Bard 在大部分時(shí)候都會(huì)先「沉默」30 秒，然后返回錯(cuò)誤提示：「抱歉，出了點(diǎn)岔子，Bard 目前還處在試驗(yàn)階段」。

GPT-3.5 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

GPT-4 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

相比之下，不管是 GPT-3.5 還是 GPT-4 Turbo，都提供了非常簡(jiǎn)潔，而且可以直接跑通的代碼。

獲勝方：毫無(wú)疑問(wèn)，這一輪是 ChatGPT 陣營(yíng)大獲全勝。

數(shù)學(xué)應(yīng)用

接下來(lái)，就是次次都能難倒一片大模型的數(shù)學(xué)題了。

題目：If Microsoft Windows 11 shipped on 3.5" floppy disks, how many floppy disks would it take?

如果使用 3.5 英寸軟盤來(lái)安裝 Windows 11，需要多少?gòu)垼?/p>

PaLM Bard 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

可以看到，初代 Bard 給出了非常離譜的答案。

先不管 Win11 有沒(méi)有 21 個(gè) GB，就算有，15.11 張軟盤也裝不下吧……

Gemini Pro Bard 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

到了新版 Gemini Bard 這里，3472 這個(gè)結(jié)果顯然是把 1GB 當(dāng)成了 1000MB 去算的。

然而，即便是按照 1000MB 去算，計(jì)算直接得到的 3472.2… 也應(yīng)該進(jìn)一位變成 3473。

畢竟，多出的那些數(shù)據(jù)，顯然是不能被「四舍五入」掉的。

GPT-3.5 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

GPT-3.5 這邊也是類似，首先推測(cè) Win11 安裝包的大小為「幾 GB」，然后四舍五入到 20GB。

最后，按照「1GB=1000MB」去算的答案，并且把多出的 0.88… 張盤也給舍掉了。

GPT-4 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

相比之下，只有 GPT-4 正確地使用了「1GB=1024MB」，并且將結(jié)果中的 3555.5… 進(jìn)了一位變成 35556。

從結(jié)果來(lái)看，Gemini Pro 加持的 Bard 和 GPT-3.5 半斤八兩，而 GPT-4 不僅邏輯清晰而且還在計(jì)算中利用「Analysis」保證了答案的正確性。

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

考慮到 Gemini Pro 在評(píng)測(cè)跑分上要比 GPT-3.5 高了不少，這個(gè)結(jié)果多少有些令人失望。

獲勝方：谷歌和 OpenAI 的免費(fèi)版模型可謂是「旗鼓相當(dāng)」，而付費(fèi)版的 GPT-4 則憑借著壓倒性的優(yōu)勢(shì)取勝。

老爹笑話

原創(chuàng)性方面的測(cè)試題目是：Write 5 original dad jokes。

寫 5 個(gè)原創(chuàng)的 dad jokes。

Dad Jokes（老爹笑話）是一種中年男人愛(ài)講的笑話，簡(jiǎn)單幼稚、無(wú)聊、莫名其妙，并且包含雙關(guān)的諧音梗，屬于無(wú)厘頭的冷笑話。無(wú)聊到女兒聽到時(shí)，常常會(huì)給老爸一個(gè)白眼。

不過(guò)下面的答案因?yàn)槭菑挠⑽姆g來(lái)的緣故，中文翻譯會(huì)丟失一些諧音梗的趣味性。

PaLM Bard 的答案：

1. 我曾經(jīng)是一名銀行家，但我失去了興趣。
2. 我徹夜未眠，想看看太陽(yáng)去了哪里，但后來(lái)我恍然大悟。
3. 我看到一個(gè)酒鬼在吃葡萄。我問(wèn)他是否要喝它們，他說(shuō)：「不，我只是去摘葡萄?！?/p>
4. 我曾經(jīng)為雞經(jīng)營(yíng)過(guò)約會(huì)服務(wù)，但我很難讓母雞們互相見面。
5. 我看到一只蝸牛背上背著一片生菜。我問(wèn)他在做什么，他說(shuō)：「我正在努力搶占先機(jī)。」

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

Gemini Pro Bard 的答案：

1.水牛的兒子去上大學(xué)，它會(huì)說(shuō)什么？「野牛！」
2.我以前對(duì)肥皂上癮，但我現(xiàn)在干凈了。
3.沒(méi)有眼睛的魚（Fish）叫什么？「噓（Fsh）！」
4.我正在讀一本關(guān)于反重力的書，根本不可能把它放下！
5.你聽說(shuō)過(guò)患有幽閉恐懼癥的宇航員嗎？「他只是需要一點(diǎn)空間?！?/p>

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

GPT-3.5 的答案：

1. 為什么科學(xué)家不相信原子？因?yàn)樗鼈儤?gòu)成（虛構(gòu)）了一切！
2. 我只認(rèn)識(shí) 25 個(gè)字母。我不認(rèn)識(shí) y（你）。
3. 假意大利面應(yīng)該怎么叫？Impasta。
4. 稻草人為何獲獎(jiǎng)？因?yàn)樗谧约旱念I(lǐng)域里很出色！
5. 企鵝如何建造它的房子？Igloos 起來(lái)！

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

GPT-4 的答案：

1. 為什么科學(xué)家不相信原子？因?yàn)樗鼈儤?gòu)成（虛構(gòu)）了一切！
2. 我告訴我兒子我是以 Thomas Edison 的名字命名的。他說(shuō)：「但是爸爸，你叫布 Biran?！刮一卮鹫f(shuō)：「沒(méi)錯(cuò)，我是在 Thomas Edison 之后起名字的！」
3. 稻草人為什么獲獎(jiǎng)？因?yàn)樗谧约旱念I(lǐng)域表現(xiàn)出色！
4. 我正在讀書一本關(guān)于反重力的書。根本不可能把它放下！
5. 你聽說(shuō)過(guò)那個(gè)害怕負(fù)數(shù)的數(shù)學(xué)家嗎？他會(huì)不惜一切代價(jià)避免負(fù)數(shù)。

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

這個(gè)問(wèn)題的精髓，就在于回答中的原創(chuàng)性。

但不管是 Bard 還是 ChatGPT，給出答案幾乎都可以通過(guò)谷歌搜索找到，或者就是模型在原答案的基礎(chǔ)上，進(jìn)行了一些小的改寫。

而且，Bard 和 GPT-4 有一個(gè)答案重了（關(guān)于反重力的書），GPT-3.5 和 GPT-4 則有兩個(gè)笑話重復(fù)了（「科學(xué)家相信原子」和「稻草人獲獎(jiǎng)」）。

最有趣的答案來(lái)自 GPT-4，它講的笑話里說(shuō)，一個(gè)名叫 Brian 的孩子是以 Thomas Edison 命名的。谷歌沒(méi)有搜到相同的笑話，但是搜到一個(gè)類似的 Thomas Jefferson 的孩子名叫 Brian 的笑話。

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

獲勝方：這一輪可以視為平局。因?yàn)?AI 們寫出的笑話幾乎都不是原創(chuàng)的……

事實(shí)檢索

問(wèn)題：Who invented video games?

誰(shuí)發(fā)明了電子游戲？

PaLM Bard 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

初代 Bard 答案中，「Ralph Baer 的 Brown Box 和 Magnavox Odyssey」的信息似乎是直接從維基百科中找到的。

Gemini Pro Bard 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

相比之下，新版 Gemini Bard 不僅簡(jiǎn)潔而準(zhǔn)確地指出了 William Higinbotham 早期的「Tennis for Two」的貢獻(xiàn)。

而且，還擴(kuò)展到對(duì)電子游戲早期發(fā)展做出重大貢獻(xiàn)的人，比如 Nolan Bushnell、Ted Dabney 和 Al Alcorn，提供的人物信息也是準(zhǔn)確且相關(guān)的。

不過(guò)后面的回答不夠完美：它沒(méi)有提 Steve Jobs 和 Steve Wozniak 在 Atari 的工作，反而對(duì)他們創(chuàng)造 Apple II 進(jìn)行了一些不合邏輯的討論。

GPT-3.5 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

而 GPT-3.5 雖然提到「多年個(gè)人和公司都為該行業(yè)做出了貢獻(xiàn)」，卻沒(méi)有說(shuō)出任何重要人物的名字。

GPT-4 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

GPT-4 則表示，電子游戲的發(fā)明「不能歸因于某個(gè)人」，然后提到了 Higinbotham、Bushnell，以及 Steve Russell 1962 年創(chuàng)作的《太空戰(zhàn)爭(zhēng)》。

獲勝方：在免費(fèi)版模型里，Bard 的答案比 GPT-3.5 更好。但要說(shuō)最佳答案，還得看付費(fèi)版的 GPT-4。

創(chuàng)意寫作

問(wèn)題：Write a two-paragraph creative story about Abraham Lincoln inventing basketball.

寫一篇關(guān)于亞伯拉罕?林肯發(fā)明籃球的兩個(gè)段落的創(chuàng)意故事。

PaLM Bard 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

初代 Bard 在寫作中，包含了一些令人回味的語(yǔ)句，比如「林肯對(duì)自己微笑，因?yàn)樗浀眯r(shí)候玩過(guò)那樣的游戲」。

Gemini Pro Bard 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

相比而言，Gemini Bard 的寫作更見簡(jiǎn)潔和專注主題。

然而，兩個(gè)版本的 Bard，都沒(méi)有按要求分成兩個(gè)段落。

GPT-3.5 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

GPT-3.5 的表現(xiàn)頗有亮點(diǎn)，它是唯一一個(gè)將林肯想象成年輕人而不是坐在白宮里焦躁不安的總統(tǒng)形象的模型。

GPT-4 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

而 GPT-4 是唯一一個(gè)明確提及林肯摔跤手經(jīng)歷的模型，而不是泛泛地說(shuō)他有運(yùn)動(dòng)能力。

更有趣的是，GPT-4 的故事中，林肯是從白宮花園里的一群孩子那里，偷來(lái)了把球扔進(jìn)籃筐這個(gè)概念。

獲勝方：所有模型的寫作都有其獨(dú)特的魅力和令人回味的句子，算是一場(chǎng)平局。

辯論對(duì)話

題目：Write a 5-line debate between a fan of PowerPC Processors and a fan of Intel Processors, circa 2000.

寫一篇 2000 年左右 PowerPC 處理器愛(ài)好者和 Intel 處理器愛(ài)好者之間的 5 行辯論。

PaLM Bard 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

Gemini Pro Bard 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

可以看出，新版 Gemini Bard 對(duì)初代 Bard 的答案進(jìn)行了改進(jìn)，尤其是在技術(shù)術(shù)語(yǔ)的選擇上。

這些答案中包含 AltiVec 指令、RISC 與 CISC 設(shè)計(jì)、MMX 技術(shù)，放在 2000 年的 Ars 論壇討論中并不違和。

GPT-3.5 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

GPT-4 的答案：

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

不過(guò)，ChatGPT 顯然表現(xiàn)更優(yōu)。GPT-3.5 的答案冗長(zhǎng)，但 GPT-4 中就簡(jiǎn)化為更短小精辟的論點(diǎn)。

二者的響應(yīng)中，都避免了令普通受眾感到艱澀的術(shù)語(yǔ)，更關(guān)注普遍的「功能與兼容性」論點(diǎn)。不足之處可能是對(duì)于技術(shù)受眾來(lái)說(shuō)太泛泛。

獲勝方：ChatGPT 成功地復(fù)刻了辯論雙方的觀點(diǎn)，而不是依賴于令人困惑的術(shù)語(yǔ)，因此 ChatGPT 獲勝。

ChatGPT 更勝一籌，但差距在縮小

可以看到，在數(shù)學(xué)、摘要、事實(shí)查找和創(chuàng)意寫作等測(cè)試中，基于 Gemini 的新版 Bard 相較于 8 個(gè)月之前，都表現(xiàn)出了顯著的進(jìn)步。

雖然根據(jù)以上非常主觀的評(píng)測(cè)，ChatGPT 依然占據(jù)上風(fēng)。

但與今年四月的情況相比，雙方的差距已經(jīng)縮小了很多。

最后，我們很期待看到，像 Gemini Ultra 或者可能融合了 OpenAI 神秘的 Q * 技術(shù)的新模型，將如何在不久的將來(lái)應(yīng)對(duì)這些任務(wù)。

參考資料：

https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

超大杯還沒(méi)來(lái)，大杯臨時(shí)頂上

頂級(jí)模型的內(nèi)卷

代碼編程

數(shù)學(xué)應(yīng)用

老爹笑話

事實(shí)檢索

創(chuàng)意寫作

辯論對(duì)話

ChatGPT 更勝一籌，但差距在縮小

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

超大杯還沒(méi)來(lái)，大杯臨時(shí)頂上

頂級(jí)模型的內(nèi)卷

代碼編程

數(shù)學(xué)應(yīng)用

老爹笑話

事實(shí)檢索

創(chuàng)意寫作

辯論對(duì)話

ChatGPT 更勝一籌，但差距在縮小

相關(guān)文章

谷歌 OpenAI 大模型巔峰對(duì)決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

ChatGPT 更勝一籌，但差距在縮小