在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Sora 不懂物理世界,翻車神圖全網(wǎng)爆笑

新智元 2024/2/19 15:19:25 責(zé)編:遠(yuǎn)洋

  新智元報(bào)道  

編輯:Aeneas 好困

【新智元導(dǎo)讀】現(xiàn)實(shí)不存在了?這么說(shuō)還為時(shí)尚早。最近,Sora 各種不符合現(xiàn)實(shí)的圖出圈了,惹網(wǎng)友爆笑。LeCun、DeepMind 大佬、馬斯克都紛紛下場(chǎng)了,而一位動(dòng)畫師表示,自己完全不擔(dān)心被 Sora 淘汰。

大火的 Sora,讓許多動(dòng)畫、影視行業(yè)的人大為恐慌。

不過(guò),今天網(wǎng)上廣為流傳的這張圖,讓大家倒是放心了不少。

可以看到,在這個(gè)視頻中,玻璃杯碎裂的方式十分詭異 —— 它被抬到半空中時(shí),桌子上就忽然出現(xiàn)了一灘平整的紅色玻璃,隨后玻璃杯被摔到桌子上,和這灘玻璃融為一體。

為什么 Sora 做出的視頻是這樣的呢?很顯然,Sora 混淆了玻璃破碎和液體溢出的順序,也并不能推理時(shí)間和因果關(guān)系。而這也說(shuō)明,Sora 目前還無(wú)法理解物理世界!

再比如,Sora 團(tuán)隊(duì) Aditya Ramesh 自豪地放出的這個(gè)視頻,「螞蟻巢穴內(nèi)爬行的 POV 鏡頭」,粗看似乎很驚艷,仔細(xì)一看,卻令人啼笑皆非 —— 螞蟻怎么只有四條腿?!

Sora 這「人工智障」的表現(xiàn),也讓大家著實(shí)松了一口氣。

雖說(shuō)確實(shí)生成一些足夠驚艷的視頻,但 Sora 離「扔進(jìn)一部小說(shuō),生成一部電影」,應(yīng)該還差得遠(yuǎn)呢。

跑步方向完全相反

椅子未被建模為剛性物體,居然能漂浮

「一只大鴨子走過(guò)波士頓的街道」,在第 9 秒,鴨子把人踩沒了

Sora 不懂人類的物理世界?AI 專家混戰(zhàn)

LeCun 和馬庫(kù)斯這對(duì)「宿敵」,這次卻站在了統(tǒng)一戰(zhàn)線上,齊噴 Sora 所謂的「物理引擎」。LeCun 留言表示:嗨,Aditya,螞蟻有 6 條腿,不是嗎?

馬庫(kù)斯也表示,Sora 會(huì)造成可怕的后果 ——「我們即將有整整一代兒童接受虛假視頻的教育,這些視頻對(duì)于天真的觀眾是完全合理的,然而在生物學(xué)上卻錯(cuò)誤百出。」

今天它弄錯(cuò)的可能是一只螞蟻,明天就是月球的軌道。詐騙犯會(huì)做出許多虛假視頻,普通用戶會(huì)被蒙蔽,再也不知道什么是真實(shí),什么是虛假。

對(duì)于玻璃杯錯(cuò)誤摔碎的視頻,馬庫(kù)斯表示這是一個(gè)絕妙的例子。

我們需要認(rèn)識(shí)到,并非 Sora 生成的所有視頻都來(lái)自其訓(xùn)練集。Sora 也并不總是遵循物理學(xué)、生物學(xué)和文化的規(guī)律。

我最近討論的 7*7 棋盤、4 條腿的螞蟻,和碎裂的杯子一樣,都證明了 Sora 是一個(gè)魯莽的野獸,而非迭代的、基于定律的物理引擎。

OpenAI 所引以為傲的對(duì)象的一致性,在這些 demo 中都沒有成功。因?yàn)槟P驮谟?xùn)練數(shù)據(jù)中從未見過(guò),從未被物理引擎產(chǎn)生過(guò)。

其實(shí),Sora 只是泛化了像素的模式,而并非世界上物體的模式。

對(duì)此,英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 表示,我們可以從兩個(gè)角度來(lái)解釋這個(gè)問(wèn)題:

(1)可能是因?yàn)檫@個(gè)模型根本沒有掌握物理知識(shí),它僅僅是在無(wú)序地拼湊圖像像素;

(2)模型確實(shí)嘗試構(gòu)建了一個(gè)內(nèi)部的物理引擎,但這個(gè)引擎的表現(xiàn)還不盡人意。就像是第一代虛幻引擎在處理流體動(dòng)力學(xué)和物體變形等問(wèn)題上,與 V5 相比有著明顯的不足。同樣地,V1 的渲染效果也遠(yuǎn)不如 V5,并且缺乏物理上的準(zhǔn)確性。

至于為什么更傾向于是第二種解釋,來(lái)自谷歌 DeepMind 的 Nando de Freitas 給出了更詳細(xì)的說(shuō)明。

生命,以其驚人的復(fù)雜結(jié)構(gòu)為例,其實(shí)質(zhì)是在日益增加的宇宙混沌中創(chuàng)造出秩序。類似地,在訓(xùn)練過(guò)程中,神經(jīng)網(wǎng)絡(luò)通過(guò)消耗能量來(lái)減少混亂,從而更有效地進(jìn)行預(yù)測(cè)和泛化。我們甚至將這種能量損失稱為「負(fù)熵」。

就像生命一樣,網(wǎng)絡(luò)也是更廣闊環(huán)境的一部分,這個(gè)環(huán)境為它提供數(shù)據(jù)和反饋。同時(shí),這一過(guò)程也會(huì)為宇宙帶來(lái)更多的混亂(例如 TPU 和 GPU 產(chǎn)生的熱量)??偟膩?lái)說(shuō),我們已經(jīng)具備了智能(生命的一種衍生屬性)的所有要素,包括對(duì)物理學(xué)的理解。

一個(gè)規(guī)模有限的神經(jīng)網(wǎng)絡(luò)能夠預(yù)測(cè)任何情況發(fā)生的唯一方式,是通過(guò)學(xué)習(xí)能夠促進(jìn)這種預(yù)測(cè)的內(nèi)部模型,包括對(duì)物理定律的直觀理解。

基于這種直覺,我找不到任何反對(duì) Jim Fan 觀點(diǎn)的理由。

隨著我們獲得更多高質(zhì)量的數(shù)據(jù)、電力、反饋(也就是微調(diào)和基礎(chǔ)化),以及能夠高效吸收數(shù)據(jù)以降低熵的并行神經(jīng)網(wǎng)絡(luò)模型,我們很可能會(huì)擁有比人類更擅長(zhǎng)推理物理的機(jī)器,并且希望它們能教會(huì)我們新知。

順帶一提,我們也構(gòu)成了神經(jīng)網(wǎng)絡(luò)的環(huán)境,通過(guò)消耗能量來(lái)創(chuàng)造秩序(比如提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集的質(zhì)量)。

關(guān)于生命和「熵」:https://newscientist.com/article/2323820-is-life-the-result-of-the-laws-of-entropy/

Sora「世界模型雛形」陷入重重爭(zhēng)議

其實(shí),Sora 初一面世,OpenAI 聲稱「擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條可行之路」的說(shuō)法,就得到了諸多專家的質(zhì)疑。

前谷歌、Facebook 技術(shù)主管 Hongcheng 表示 ——

「模型不大可能通過(guò)被動(dòng)看訓(xùn)練數(shù)據(jù)視頻,就能掌握物理定律?!?/p>

再聰明的智能體,也不大可能通過(guò)看太陽(yáng)東升西落的視頻,就能悟出地球圍著太陽(yáng)轉(zhuǎn)。人類看了幾千年蘋果掉到地上,也是直到牛頓的時(shí)代才發(fā)現(xiàn)了引力。

多位業(yè)內(nèi)人士表示,說(shuō) Sora 是數(shù)據(jù)驅(qū)動(dòng)的物理引擎的說(shuō)法很愚蠢。

它的荒謬性,就好比我們收集了行星運(yùn)動(dòng)的數(shù)據(jù),輸入到模型中,模型預(yù)測(cè)出行星位置,就說(shuō)這個(gè)模型在內(nèi)部復(fù)現(xiàn)了廣義相對(duì)論一樣。

像 Sora 這樣的 Diffusion Transformer,底層是基于機(jī)器學(xué)習(xí)的隨機(jī)梯度下降加上反向傳播。

這就意味著:Sora 并沒有邏輯推理能力!

本質(zhì)上,它只是在將訓(xùn)練的數(shù)據(jù)壓縮成模型的權(quán)重罷了。只是按照某種規(guī)則更新參數(shù),以達(dá)到最小誤差的配置,并不進(jìn)行邏輯推理。

梯度下降加上反向傳播,往往會(huì)找到似乎有效但實(shí)際上脆弱的解決方案,因此它很容易崩潰。

就像蒼蠅尋找氣味源頭一樣,它總是朝著氣味最濃的方向去尋找,就像梯度下降算法根據(jù)梯度的方向更新參數(shù),以逐步接近損失函數(shù)的最小值。

基于這種模式,是無(wú)法學(xué)會(huì)物理規(guī)律的。

而對(duì)于 Sora「沒有在學(xué)習(xí)物理,只是在二維空間中處理像素」的說(shuō)法,英偉達(dá)高級(jí)科學(xué)家 Jim Fan 表示自己不能茍同。

這種觀點(diǎn),就好像說(shuō)「GPT-4 不學(xué)習(xí)編碼,只是采樣字符串」一樣。要是這么說(shuō)的話,我們還可以說(shuō)「Transformer 所做的只是處理一系列整數(shù)(token ID)」,「神經(jīng)網(wǎng)絡(luò)所做的只是對(duì)浮點(diǎn)數(shù)進(jìn)行處理」。

Sora 的軟物理模擬,是大規(guī)模擴(kuò)展文本到視頻訓(xùn)練時(shí)的一項(xiàng)「涌現(xiàn)特性」。

- 為了能夠生成可執(zhí)行的 Python 代碼,GPT-4 必須掌握特定形式的語(yǔ)法、語(yǔ)義和數(shù)據(jù)結(jié)構(gòu)。不過(guò),GPT-4 并不直接保存 Python 語(yǔ)法樹。

- 同樣地,Sora 需要掌握將文字描述轉(zhuǎn)化為 3D 圖像、進(jìn)行 3D 轉(zhuǎn)換、光線追蹤渲染以及應(yīng)用物理規(guī)律的技巧,從而盡可能準(zhǔn)確地對(duì)視頻像素建模。它需要像學(xué)習(xí)游戲引擎開發(fā)那樣,掌握這些技能。

- 如果我們暫時(shí)不考慮交互性,那么 UE5 可以被看作是一個(gè)復(fù)雜的視頻像素生成過(guò)程。Sora 也是用于生成視頻像素的,但它是基于端到端處理的 Transformer 技術(shù)。它們?cè)诟拍钌鲜翘幱谕粚用娴摹?/p>

- 不同之處在于,UE5 是通過(guò)人工精心設(shè)計(jì)且精確的,而 Sora 則完全依靠數(shù)據(jù)學(xué)習(xí)得到,更加依賴直觀的理解。

谷歌深度學(xué)習(xí)專家、Keras 創(chuàng)始人 Fran?ois Chollet 表示,這個(gè)話題其實(shí)是老生常談了。

從 2016 年以來(lái),關(guān)于視頻生成模型和神經(jīng)輻射場(chǎng)是否融入了對(duì)物理規(guī)律的理解,就有不少討論。

的確,這些系統(tǒng)具備根據(jù)給定物理場(chǎng)景預(yù)測(cè)未來(lái)發(fā)展的能力,它們實(shí)際上是基于一套物理模型工作的。問(wèn)題在于,這套模型的準(zhǔn)確度如何?能否應(yīng)用于未曾訓(xùn)練的新情境中?

這些問(wèn)題,標(biāo)志著兩個(gè)世界的分水嶺,這兩個(gè)世界之間,有著截然不同的可能性。在一個(gè)世界里,生成的圖像僅用于媒體制作,看上去似乎真實(shí),實(shí)際上卻并非真實(shí)世界的反映。而在另一個(gè)世界中,這些圖像能作為現(xiàn)實(shí)世界的模擬,幫我們對(duì)未來(lái)作出可靠預(yù)測(cè),這對(duì)科學(xué)研究意義重大。

不過(guò),當(dāng)前模型存在一些基本限制,無(wú)法捕捉到物體恒存性這樣的視覺現(xiàn)實(shí)基本原理,這個(gè)概念即使兩歲孩童也能理解。

當(dāng)然,人類研究者是有辦法對(duì)之改進(jìn)的。

如果能通過(guò)增加模型訓(xùn)練數(shù)據(jù)的采樣密度,在更廣泛、更深入的數(shù)據(jù)上進(jìn)行訓(xùn)練,就能提高模型性能。到那一天,我們就能來(lái)預(yù)測(cè)天氣、創(chuàng)建風(fēng)洞模擬器、預(yù)測(cè)太陽(yáng)活動(dòng)了!

但如果我們想將模型應(yīng)用于游戲引擎和視頻上,是想構(gòu)建廣泛泛化的現(xiàn)實(shí)世界模型,就行不通了,模型不是這么用的。

Sora 的技術(shù)并不新

此外,還有很多大佬表示,Sora 的技術(shù)其實(shí)并不新。

LeCun 轉(zhuǎn)發(fā)了華人學(xué)者謝賽寧的推文,認(rèn)為 Sora 基本上是基于謝賽寧等人在去年被 ICCV 2023 收錄的論文提出的框架設(shè)計(jì)而成的。

而和謝賽寧一起合著這篇論文的 William Peebles 之后也加入了 OpenAI,領(lǐng)導(dǎo)了開發(fā) Sora 的技術(shù)團(tuán)隊(duì)。

時(shí)空 patch,是 Sora 創(chuàng)新的核心。

它建立在 Google DeepMind 早期對(duì) NaViT 和 ViT(視覺 Transformer)的研究之上。而這項(xiàng)研究,又是基于一篇 2021 年的論文「An Image is Worth 16x16 Words」。

這其中 Sora 所做的,就是把 Diffusion 和 Transformer 架構(gòu)結(jié)合在一起,創(chuàng)建了 diffusion transformer 模型。

馬毅教授也表示,Sora 與之前不同的地方,就是用 Transformer 實(shí)現(xiàn)了 diffusion 和 denosing。

而這其實(shí)就是馬毅團(tuán)隊(duì)去年在 NeurIPS White-box Transformer 論文所預(yù)示和證明了的 ——

假設(shè)數(shù)據(jù)分布是 mixed Gaussians,那 Transformer blocks 就是在實(shí)現(xiàn) diffusion / 擴(kuò)散和 denoising / 壓縮 。

不過(guò),當(dāng)時(shí)團(tuán)隊(duì)苦于沒有足夠的數(shù)據(jù)和算力,無(wú)法在 diffusion model 上驗(yàn)證,只能在 Masked VAE,DINO,BERT,以及 GPT-2 上做了驗(yàn)證。

而這次 Sora 的發(fā)布更加證明了,在相同條件下,白盒的 Transformer CRATE 構(gòu)架在性能上已經(jīng)能超越傳統(tǒng)的 Transformer,而且完全可解釋和更加可控,因此會(huì)提升視頻和文本的生成技術(shù)。

有趣的是,連馬斯克也跳出來(lái)說(shuō),特斯拉早在一年前就掌握了類似 OpenAI 的視頻生成技術(shù),它的真實(shí)世界模擬和視頻生成是全世界最好的。

并且,特斯拉視頻生成超越 OpenAI 的地方就在于,他預(yù)測(cè)了極其精確的物理場(chǎng)景,這對(duì)自動(dòng)駕駛至關(guān)重要。

那么,特斯拉怎么讓 OpenAI 搶了先呢?

馬斯克表示,自己早就想用特斯拉做視頻游戲了,但不幸的是,他們必須在發(fā)布無(wú)監(jiān)督的 FSD 后才能制作游戲。

動(dòng)畫師:Sora 距離替代人類,還早呢

無(wú)獨(dú)有偶,一位動(dòng)畫師也表示,自己完全沒有對(duì) Sora 感到害怕。他的理由是,因?yàn)閯?dòng)畫制作需要反復(fù)修改,尤其是面對(duì)客戶的需求時(shí)。

面對(duì)反復(fù)的修改要求,人類動(dòng)畫師是能輕松應(yīng)對(duì)的,而 AI 則很可能選擇重新出一幅作品。哪位客戶會(huì)喜歡這種方式呢?

因此,目前 AI 無(wú)法給客戶又完整又高質(zhì)量的作品。可能很多人覺得,過(guò)于關(guān)注細(xì)節(jié)是吹毛求疵,但客戶要的就是吹毛求疵。對(duì)于他們珍愛的 IP 或作品,他們可不希望每次修改都伴隨著角色、設(shè)計(jì)、構(gòu)圖、背景的大改動(dòng)。所以,目前 Sora 還端不了誰(shuí)的飯碗,除了展現(xiàn)一下 AI 的潛能外,實(shí)際的應(yīng)用價(jià)值并不大。

參考資料:

  • https://twitter.com/owenferny/status/1758482885575635226

  • https://twitter.com/ChombaBupe/status/1759226186075390033

  • https://twitter.com/fchollet/status/1758896780576739485

  • https://twitter.com/model_mechanic/status/1759068809867166129

  • https://twitter.com/GaryMarcus/status/1759271835181711736

  • https://twitter.com/DrJimFan/status/1759292700585841096

  • https://weibo.com/3235040884/O19wnxB9Y

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:SoraOpenAI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知