Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

新智元 2024/2/19 15:19:25 責(zé)編：遠(yuǎn)洋

評(píng)論：

新智元報(bào)道

編輯：Aeneas 好困

【新智元導(dǎo)讀】現(xiàn)實(shí)不存在了？這么說(shuō)還為時(shí)尚早。最近，Sora 各種不符合現(xiàn)實(shí)的圖出圈了，惹網(wǎng)友爆笑。LeCun、DeepMind 大佬、馬斯克都紛紛下場(chǎng)了，而一位動(dòng)畫師表示，自己完全不擔(dān)心被 Sora 淘汰。

大火的 Sora，讓許多動(dòng)畫、影視行業(yè)的人大為恐慌。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

不過(guò)，今天網(wǎng)上廣為流傳的這張圖，讓大家倒是放心了不少。

可以看到，在這個(gè)視頻中，玻璃杯碎裂的方式十分詭異 —— 它被抬到半空中時(shí)，桌子上就忽然出現(xiàn)了一灘平整的紅色玻璃，隨后玻璃杯被摔到桌子上，和這灘玻璃融為一體。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

為什么 Sora 做出的視頻是這樣的呢？很顯然，Sora 混淆了玻璃破碎和液體溢出的順序，也并不能推理時(shí)間和因果關(guān)系。而這也說(shuō)明，Sora 目前還無(wú)法理解物理世界！

再比如，Sora 團(tuán)隊(duì) Aditya Ramesh 自豪地放出的這個(gè)視頻，「螞蟻巢穴內(nèi)爬行的 POV 鏡頭」，粗看似乎很驚艷，仔細(xì)一看，卻令人啼笑皆非 —— 螞蟻怎么只有四條腿？！

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

Sora 這「人工智障」的表現(xiàn)，也讓大家著實(shí)松了一口氣。

雖說(shuō)確實(shí)生成一些足夠驚艷的視頻，但 Sora 離「扔進(jìn)一部小說(shuō)，生成一部電影」，應(yīng)該還差得遠(yuǎn)呢。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

跑步方向完全相反

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

椅子未被建模為剛性物體，居然能漂浮

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

「一只大鴨子走過(guò)波士頓的街道」，在第 9 秒，鴨子把人踩沒了

Sora 不懂人類的物理世界？AI 專家混戰(zhàn)

LeCun 和馬庫(kù)斯這對(duì)「宿敵」，這次卻站在了統(tǒng)一戰(zhàn)線上，齊噴 Sora 所謂的「物理引擎」。LeCun 留言表示：嗨，Aditya，螞蟻有 6 條腿，不是嗎？

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

馬庫(kù)斯也表示，Sora 會(huì)造成可怕的后果 ——「我們即將有整整一代兒童接受虛假視頻的教育，這些視頻對(duì)于天真的觀眾是完全合理的，然而在生物學(xué)上卻錯(cuò)誤百出。」

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

今天它弄錯(cuò)的可能是一只螞蟻，明天就是月球的軌道。詐騙犯會(huì)做出許多虛假視頻，普通用戶會(huì)被蒙蔽，再也不知道什么是真實(shí)，什么是虛假。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

對(duì)于玻璃杯錯(cuò)誤摔碎的視頻，馬庫(kù)斯表示這是一個(gè)絕妙的例子。

我們需要認(rèn)識(shí)到，并非 Sora 生成的所有視頻都來(lái)自其訓(xùn)練集。Sora 也并不總是遵循物理學(xué)、生物學(xué)和文化的規(guī)律。
我最近討論的 7*7 棋盤、4 條腿的螞蟻，和碎裂的杯子一樣，都證明了 Sora 是一個(gè)魯莽的野獸，而非迭代的、基于定律的物理引擎。
OpenAI 所引以為傲的對(duì)象的一致性，在這些 demo 中都沒有成功。因?yàn)槟Ｐ驮谟?xùn)練數(shù)據(jù)中從未見過(guò)，從未被物理引擎產(chǎn)生過(guò)。
其實(shí)，Sora 只是泛化了像素的模式，而并非世界上物體的模式。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

對(duì)此，英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 表示，我們可以從兩個(gè)角度來(lái)解釋這個(gè)問(wèn)題：

（1）可能是因?yàn)檫@個(gè)模型根本沒有掌握物理知識(shí)，它僅僅是在無(wú)序地拼湊圖像像素；

（2）模型確實(shí)嘗試構(gòu)建了一個(gè)內(nèi)部的物理引擎，但這個(gè)引擎的表現(xiàn)還不盡人意。就像是第一代虛幻引擎在處理流體動(dòng)力學(xué)和物體變形等問(wèn)題上，與 V5 相比有著明顯的不足。同樣地，V1 的渲染效果也遠(yuǎn)不如 V5，并且缺乏物理上的準(zhǔn)確性。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

至于為什么更傾向于是第二種解釋，來(lái)自谷歌 DeepMind 的 Nando de Freitas 給出了更詳細(xì)的說(shuō)明。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

生命，以其驚人的復(fù)雜結(jié)構(gòu)為例，其實(shí)質(zhì)是在日益增加的宇宙混沌中創(chuàng)造出秩序。類似地，在訓(xùn)練過(guò)程中，神經(jīng)網(wǎng)絡(luò)通過(guò)消耗能量來(lái)減少混亂，從而更有效地進(jìn)行預(yù)測(cè)和泛化。我們甚至將這種能量損失稱為「負(fù)熵」。
就像生命一樣，網(wǎng)絡(luò)也是更廣闊環(huán)境的一部分，這個(gè)環(huán)境為它提供數(shù)據(jù)和反饋。同時(shí)，這一過(guò)程也會(huì)為宇宙帶來(lái)更多的混亂（例如 TPU 和 GPU 產(chǎn)生的熱量）?？偟膩?lái)說(shuō)，我們已經(jīng)具備了智能（生命的一種衍生屬性）的所有要素，包括對(duì)物理學(xué)的理解。
一個(gè)規(guī)模有限的神經(jīng)網(wǎng)絡(luò)能夠預(yù)測(cè)任何情況發(fā)生的唯一方式，是通過(guò)學(xué)習(xí)能夠促進(jìn)這種預(yù)測(cè)的內(nèi)部模型，包括對(duì)物理定律的直觀理解。
基于這種直覺，我找不到任何反對(duì) Jim Fan 觀點(diǎn)的理由。
隨著我們獲得更多高質(zhì)量的數(shù)據(jù)、電力、反饋（也就是微調(diào)和基礎(chǔ)化），以及能夠高效吸收數(shù)據(jù)以降低熵的并行神經(jīng)網(wǎng)絡(luò)模型，我們很可能會(huì)擁有比人類更擅長(zhǎng)推理物理的機(jī)器，并且希望它們能教會(huì)我們新知。
順帶一提，我們也構(gòu)成了神經(jīng)網(wǎng)絡(luò)的環(huán)境，通過(guò)消耗能量來(lái)創(chuàng)造秩序（比如提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集的質(zhì)量）。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

關(guān)于生命和「熵」：https://newscientist.com/article/2323820-is-life-the-result-of-the-laws-of-entropy/

Sora「世界模型雛形」陷入重重爭(zhēng)議

其實(shí)，Sora 初一面世，OpenAI 聲稱「擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條可行之路」的說(shuō)法，就得到了諸多專家的質(zhì)疑。

前谷歌、Facebook 技術(shù)主管 Hongcheng 表示 ——

「模型不大可能通過(guò)被動(dòng)看訓(xùn)練數(shù)據(jù)視頻，就能掌握物理定律?！?/p>

再聰明的智能體，也不大可能通過(guò)看太陽(yáng)東升西落的視頻，就能悟出地球圍著太陽(yáng)轉(zhuǎn)。人類看了幾千年蘋果掉到地上，也是直到牛頓的時(shí)代才發(fā)現(xiàn)了引力。

多位業(yè)內(nèi)人士表示，說(shuō) Sora 是數(shù)據(jù)驅(qū)動(dòng)的物理引擎的說(shuō)法很愚蠢。

它的荒謬性，就好比我們收集了行星運(yùn)動(dòng)的數(shù)據(jù)，輸入到模型中，模型預(yù)測(cè)出行星位置，就說(shuō)這個(gè)模型在內(nèi)部復(fù)現(xiàn)了廣義相對(duì)論一樣。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

像 Sora 這樣的 Diffusion Transformer，底層是基于機(jī)器學(xué)習(xí)的隨機(jī)梯度下降加上反向傳播。

這就意味著：Sora 并沒有邏輯推理能力！

本質(zhì)上，它只是在將訓(xùn)練的數(shù)據(jù)壓縮成模型的權(quán)重罷了。只是按照某種規(guī)則更新參數(shù)，以達(dá)到最小誤差的配置，并不進(jìn)行邏輯推理。
梯度下降加上反向傳播，往往會(huì)找到似乎有效但實(shí)際上脆弱的解決方案，因此它很容易崩潰。
就像蒼蠅尋找氣味源頭一樣，它總是朝著氣味最濃的方向去尋找，就像梯度下降算法根據(jù)梯度的方向更新參數(shù)，以逐步接近損失函數(shù)的最小值。
基于這種模式，是無(wú)法學(xué)會(huì)物理規(guī)律的。

而對(duì)于 Sora「沒有在學(xué)習(xí)物理，只是在二維空間中處理像素」的說(shuō)法，英偉達(dá)高級(jí)科學(xué)家 Jim Fan 表示自己不能茍同。

這種觀點(diǎn)，就好像說(shuō)「GPT-4 不學(xué)習(xí)編碼，只是采樣字符串」一樣。要是這么說(shuō)的話，我們還可以說(shuō)「Transformer 所做的只是處理一系列整數(shù)（token ID）」，「神經(jīng)網(wǎng)絡(luò)所做的只是對(duì)浮點(diǎn)數(shù)進(jìn)行處理」。

Sora 的軟物理模擬，是大規(guī)模擴(kuò)展文本到視頻訓(xùn)練時(shí)的一項(xiàng)「涌現(xiàn)特性」。

- 為了能夠生成可執(zhí)行的 Python 代碼，GPT-4 必須掌握特定形式的語(yǔ)法、語(yǔ)義和數(shù)據(jù)結(jié)構(gòu)。不過(guò)，GPT-4 并不直接保存 Python 語(yǔ)法樹。
- 同樣地，Sora 需要掌握將文字描述轉(zhuǎn)化為 3D 圖像、進(jìn)行 3D 轉(zhuǎn)換、光線追蹤渲染以及應(yīng)用物理規(guī)律的技巧，從而盡可能準(zhǔn)確地對(duì)視頻像素建模。它需要像學(xué)習(xí)游戲引擎開發(fā)那樣，掌握這些技能。
- 如果我們暫時(shí)不考慮交互性，那么 UE5 可以被看作是一個(gè)復(fù)雜的視頻像素生成過(guò)程。Sora 也是用于生成視頻像素的，但它是基于端到端處理的 Transformer 技術(shù)。它們?cè)诟拍钌鲜翘幱谕粚用娴摹?/p>
- 不同之處在于，UE5 是通過(guò)人工精心設(shè)計(jì)且精確的，而 Sora 則完全依靠數(shù)據(jù)學(xué)習(xí)得到，更加依賴直觀的理解。

谷歌深度學(xué)習(xí)專家、Keras 創(chuàng)始人 Fran?ois Chollet 表示，這個(gè)話題其實(shí)是老生常談了。

從 2016 年以來(lái)，關(guān)于視頻生成模型和神經(jīng)輻射場(chǎng)是否融入了對(duì)物理規(guī)律的理解，就有不少討論。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

的確，這些系統(tǒng)具備根據(jù)給定物理場(chǎng)景預(yù)測(cè)未來(lái)發(fā)展的能力，它們實(shí)際上是基于一套物理模型工作的。問(wèn)題在于，這套模型的準(zhǔn)確度如何？能否應(yīng)用于未曾訓(xùn)練的新情境中？

這些問(wèn)題，標(biāo)志著兩個(gè)世界的分水嶺，這兩個(gè)世界之間，有著截然不同的可能性。在一個(gè)世界里，生成的圖像僅用于媒體制作，看上去似乎真實(shí)，實(shí)際上卻并非真實(shí)世界的反映。而在另一個(gè)世界中，這些圖像能作為現(xiàn)實(shí)世界的模擬，幫我們對(duì)未來(lái)作出可靠預(yù)測(cè)，這對(duì)科學(xué)研究意義重大。

不過(guò)，當(dāng)前模型存在一些基本限制，無(wú)法捕捉到物體恒存性這樣的視覺現(xiàn)實(shí)基本原理，這個(gè)概念即使兩歲孩童也能理解。

當(dāng)然，人類研究者是有辦法對(duì)之改進(jìn)的。

如果能通過(guò)增加模型訓(xùn)練數(shù)據(jù)的采樣密度，在更廣泛、更深入的數(shù)據(jù)上進(jìn)行訓(xùn)練，就能提高模型性能。到那一天，我們就能來(lái)預(yù)測(cè)天氣、創(chuàng)建風(fēng)洞模擬器、預(yù)測(cè)太陽(yáng)活動(dòng)了！

但如果我們想將模型應(yīng)用于游戲引擎和視頻上，是想構(gòu)建廣泛泛化的現(xiàn)實(shí)世界模型，就行不通了，模型不是這么用的。

Sora 的技術(shù)并不新

此外，還有很多大佬表示，Sora 的技術(shù)其實(shí)并不新。

LeCun 轉(zhuǎn)發(fā)了華人學(xué)者謝賽寧的推文，認(rèn)為 Sora 基本上是基于謝賽寧等人在去年被 ICCV 2023 收錄的論文提出的框架設(shè)計(jì)而成的。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

而和謝賽寧一起合著這篇論文的 William Peebles 之后也加入了 OpenAI，領(lǐng)導(dǎo)了開發(fā) Sora 的技術(shù)團(tuán)隊(duì)。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

時(shí)空 patch，是 Sora 創(chuàng)新的核心。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

它建立在 Google DeepMind 早期對(duì) NaViT 和 ViT（視覺 Transformer）的研究之上。而這項(xiàng)研究，又是基于一篇 2021 年的論文「An Image is Worth 16x16 Words」。

這其中 Sora 所做的，就是把 Diffusion 和 Transformer 架構(gòu)結(jié)合在一起，創(chuàng)建了 diffusion transformer 模型。

馬毅教授也表示，Sora 與之前不同的地方，就是用 Transformer 實(shí)現(xiàn)了 diffusion 和 denosing。

而這其實(shí)就是馬毅團(tuán)隊(duì)去年在 NeurIPS White-box Transformer 論文所預(yù)示和證明了的 ——

假設(shè)數(shù)據(jù)分布是 mixed Gaussians，那 Transformer blocks 就是在實(shí)現(xiàn) diffusion / 擴(kuò)散和 denoising / 壓縮。

不過(guò)，當(dāng)時(shí)團(tuán)隊(duì)苦于沒有足夠的數(shù)據(jù)和算力，無(wú)法在 diffusion model 上驗(yàn)證，只能在 Masked VAE，DINO，BERT，以及 GPT-2 上做了驗(yàn)證。

而這次 Sora 的發(fā)布更加證明了，在相同條件下，白盒的 Transformer CRATE 構(gòu)架在性能上已經(jīng)能超越傳統(tǒng)的 Transformer，而且完全可解釋和更加可控，因此會(huì)提升視頻和文本的生成技術(shù)。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

有趣的是，連馬斯克也跳出來(lái)說(shuō)，特斯拉早在一年前就掌握了類似 OpenAI 的視頻生成技術(shù)，它的真實(shí)世界模擬和視頻生成是全世界最好的。

并且，特斯拉視頻生成超越 OpenAI 的地方就在于，他預(yù)測(cè)了極其精確的物理場(chǎng)景，這對(duì)自動(dòng)駕駛至關(guān)重要。

那么，特斯拉怎么讓 OpenAI 搶了先呢？

馬斯克表示，自己早就想用特斯拉做視頻游戲了，但不幸的是，他們必須在發(fā)布無(wú)監(jiān)督的 FSD 后才能制作游戲。

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

動(dòng)畫師：Sora 距離替代人類，還早呢

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

無(wú)獨(dú)有偶，一位動(dòng)畫師也表示，自己完全沒有對(duì) Sora 感到害怕。他的理由是，因?yàn)閯?dòng)畫制作需要反復(fù)修改，尤其是面對(duì)客戶的需求時(shí)。

面對(duì)反復(fù)的修改要求，人類動(dòng)畫師是能輕松應(yīng)對(duì)的，而 AI 則很可能選擇重新出一幅作品。哪位客戶會(huì)喜歡這種方式呢？

因此，目前 AI 無(wú)法給客戶又完整又高質(zhì)量的作品。可能很多人覺得，過(guò)于關(guān)注細(xì)節(jié)是吹毛求疵，但客戶要的就是吹毛求疵。對(duì)于他們珍愛的 IP 或作品，他們可不希望每次修改都伴隨著角色、設(shè)計(jì)、構(gòu)圖、背景的大改動(dòng)。所以，目前 Sora 還端不了誰(shuí)的飯碗，除了展現(xiàn)一下 AI 的潛能外，實(shí)際的應(yīng)用價(jià)值并不大。

參考資料：

https://twitter.com/owenferny/status/1758482885575635226
https://twitter.com/ChombaBupe/status/1759226186075390033
https://twitter.com/fchollet/status/1758896780576739485
https://twitter.com/model_mechanic/status/1759068809867166129
https://twitter.com/GaryMarcus/status/1759271835181711736
https://twitter.com/DrJimFan/status/1759292700585841096
https://weibo.com/3235040884/O19wnxB9Y

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

Sora 不懂人類的物理世界？AI 專家混戰(zhàn)

Sora「世界模型雛形」陷入重重爭(zhēng)議

Sora 的技術(shù)并不新

動(dòng)畫師：Sora 距離替代人類，還早呢

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

Sora 不懂人類的物理世界？AI 專家混戰(zhàn)

Sora「世界模型雛形」陷入重重爭(zhēng)議

Sora 的技術(shù)并不新

動(dòng)畫師：Sora 距離替代人類，還早呢

相關(guān)文章

Sora 不懂物理世界，翻車神圖全網(wǎng)爆笑

動(dòng)畫師：Sora 距離替代人類，還早呢