首頁(yè) > 智能時(shí)代>人工智能

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

量子位 2025/2/10 12:04:23 責(zé)編：汪淼

評(píng)論：

針對(duì)視頻生成中的運(yùn)動(dòng)一致性難題，Meta GenAI 團(tuán)隊(duì)提出了一個(gè)全新框架 VideoJAM。

VideoJAM 基于主流的 DiT 路線，但和 Sora 等純 DiT 模型相比，動(dòng)態(tài)效果直接拉滿：

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

哪怕變化又大又迅速、動(dòng)作又復(fù)雜的舞蹈，也看起來(lái)像真的一樣，而且還是兩個(gè)人同步：

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

像倒立這樣的操作，同樣可以輕松駕馭：

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

而且不需要額外數(shù)據(jù)或縮放，就能無(wú)縫集成到不同規(guī)模的 DiT 模型當(dāng)中，帶來(lái)運(yùn)動(dòng)效果的提升。

有網(wǎng)友表示，第一眼看上去就和真的一樣，也許到今年年底，我們看不到區(qū)別了。

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

運(yùn)動(dòng)效果超越 Sora、Gen3

VideoJAM 在處理運(yùn)動(dòng)場(chǎng)景時(shí)，不僅視覺(jué)上效果更好，也更加貼合物理規(guī)律。

比如吹滅蠟燭時(shí)火苗的晃動(dòng)，以及漸進(jìn)式的熄滅過(guò)程，連燃燒產(chǎn)生的白煙也沒(méi)有落下：

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

寫書法時(shí)毛筆的運(yùn)動(dòng)處理得也很精細(xì)，并且做到了筆跡和紙上的字跡同步（雖然不知道寫的是什么）：

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

還有用手捏史萊姆時(shí)的形狀變化，以及內(nèi)部產(chǎn)生的流體效果，連手松開時(shí)的粘連效果也體現(xiàn)了出來(lái)：

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

甚至是三個(gè)球來(lái)回拋的雜技表演，也能很好地體現(xiàn)出拋物線軌跡：

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

另外，作者也針對(duì)文本 / 外觀 / 運(yùn)動(dòng)一致性、視頻質(zhì)量等指標(biāo)，在 4B 和 30B 的 DiT 模型上分別運(yùn)用 VideoJAM 進(jìn)行了評(píng)估，并與主流視頻生成模型進(jìn)行了對(duì)比。

結(jié)果在 4B 和 30B 規(guī)模下，相比于原始的 DiT 模型，運(yùn)動(dòng)質(zhì)量從 78.3 和 88.1，分別提升到了 93.7 和 92.4，提升比例分別為 19.67% 和 4.88%。

并且應(yīng)用 VideoJAM 后，運(yùn)動(dòng)質(zhì)量也超過(guò)了 Gen3、Sora 等其他對(duì)比模型。

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

那么，VideoJAM 是如何做到的呢？

訓(xùn)練中引入運(yùn)動(dòng)信息

在訓(xùn)練和推理階段，VideoJAM 針對(duì)經(jīng)典的 DiT 架構(gòu)都進(jìn)行了一定補(bǔ)充。

具體來(lái)說(shuō)，在訓(xùn)練階段，VideoJAM 采用了聯(lián)合外觀-運(yùn)動(dòng)表示（Joint Appearance-Motion Representation）。

通過(guò)在模型中引入額外的運(yùn)動(dòng)預(yù)測(cè)任務(wù)，讓模型在生成視頻的同時(shí)也學(xué)習(xí)如何預(yù)測(cè)對(duì)應(yīng)的運(yùn)動(dòng)。

為實(shí)現(xiàn)聯(lián)合外觀-運(yùn)動(dòng)表示，VideoJAM 對(duì)現(xiàn)有視頻生成模型進(jìn)行了兩處關(guān)鍵性改動(dòng)，添加了輸入和輸出兩個(gè)線性投影層。

輸入投影層將外觀特征（視頻幀的表示）和運(yùn)動(dòng)特征拼接后映射到模型的隱藏空間，形成一個(gè)聯(lián)合的潛在表示，這個(gè)潛在表示融合了靜態(tài)外觀信息和動(dòng)態(tài)運(yùn)動(dòng)信息。
輸出投影層則從模型的聯(lián)合潛在表示中，分別解碼出視頻的外觀預(yù)測(cè)和運(yùn)動(dòng)預(yù)測(cè)，其中外觀預(yù)測(cè)用于生成最終的視頻幀，運(yùn)動(dòng)預(yù)測(cè)則用來(lái)評(píng)估模型對(duì)時(shí)間一致性的理解。

在這一過(guò)程當(dāng)中，運(yùn)動(dòng)是用光流（Optical Flow），也就是視頻幀之間像素的位移的形式進(jìn)行表示的。

處理時(shí)，VideoJAM 將光流轉(zhuǎn)換成 RGB 格式，像素運(yùn)動(dòng)方向被映射為色調(diào)，強(qiáng)度則被映射為亮度或透明度，使其可以像普通視頻一樣被模型處理。

這種處理方式無(wú)需額外訓(xùn)練復(fù)雜的運(yùn)動(dòng)編碼器，且兼容性強(qiáng)，可以方便地嵌入到現(xiàn)有的視頻生成模型中。

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

到了推理階段，VideoJAM 采用了內(nèi)部引導(dǎo)機(jī)制（Inner-Guidance Mechanism），進(jìn)一步增強(qiáng)生成視頻的運(yùn)動(dòng)一致性。

這種機(jī)制不依賴外部條件，而是使用模型自身在每個(gè)生成步驟中預(yù)測(cè)的運(yùn)動(dòng)信息來(lái)動(dòng)態(tài)調(diào)整生成過(guò)程，可以實(shí)時(shí)捕捉生成視頻的動(dòng)態(tài)變化。

和其他擴(kuò)散模型一樣，生成視頻的初始輸入是隨機(jī)噪聲，模型首先對(duì)噪聲進(jìn)行處理，生成初步的視頻幀和對(duì)應(yīng)的運(yùn)動(dòng)預(yù)測(cè)。

生成過(guò)程中，模型會(huì)使用當(dāng)前幀的運(yùn)動(dòng)預(yù)測(cè)作為指導(dǎo)信號(hào)，調(diào)整下一個(gè)時(shí)間步的生成方向。

這種反饋機(jī)制之下，模型不斷審視自己生成的動(dòng)作是否連貫，并在發(fā)現(xiàn)不一致時(shí)自動(dòng)進(jìn)行調(diào)整。

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

具體到生成進(jìn)程，可以分成兩個(gè)階段，內(nèi)部引導(dǎo)主要應(yīng)用在其中第一個(gè)：

粗略階段：在生成初期（大約前 50% 的步驟），重點(diǎn)關(guān)注大范圍的運(yùn)動(dòng)連貫性，如整體方向和節(jié)奏。
細(xì)化階段：在生成后期，轉(zhuǎn)向優(yōu)化細(xì)節(jié)，如肢體動(dòng)作的微調(diào)和物體交互的物理合理性。

消融實(shí)驗(yàn)表明，作者采用的光流表示和內(nèi)部引導(dǎo)機(jī)制正是 VideoJAM 實(shí)現(xiàn)高運(yùn)動(dòng)一致性的關(guān)鍵。

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

論文地址：

https://arxiv.org/abs/2502.02492

項(xiàng)目主頁(yè)：

https://hila-chefer.github.io/videojam-paper.github.io/

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：克雷西，原標(biāo)題《Meta 新視頻生成框架拿捏倒立雜技，雙人舞也能完美同步！運(yùn)動(dòng)一致性暴增近 20%，可無(wú)縫集成 DiT 模型》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

運(yùn)動(dòng)效果超越 Sora、Gen3

訓(xùn)練中引入運(yùn)動(dòng)信息

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

運(yùn)動(dòng)效果超越 Sora、Gen3

訓(xùn)練中引入運(yùn)動(dòng)信息

相關(guān)文章

Meta 新視頻生成框架 VideoJAM 拿捏倒立雜技，雙人舞也能完美同步

運(yùn)動(dòng)效果超越 Sora、Gen3