蘋果聯(lián)合中國人民大學發(fā)布 VSSFlow 模型：無聲視頻 AI 同步生成音效與配音

2026/2/10 7:21:39 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 2 月 10 日消息，科技媒體 9to5Mac 昨日（2 月 9 日）發(fā)布博文，報道稱蘋果公司攜手中國人民大學（簡稱人大），推出 VSSFlow 新型 AI 模型，突破了傳統(tǒng)音頻生成技術(shù)的瓶頸，僅需單一系統(tǒng)即可從無聲視頻中同時生成逼真的環(huán)境音效與人類語音。

該模型的核心能力在于“化靜為動”，能夠直接處理無聲視頻數(shù)據(jù)，在單一系統(tǒng)的框架下，同步生成與畫面高度匹配的環(huán)境音效以及精準的語音對話。該成果不僅解決了過去音頻生成模型功能單一的問題，更在生成質(zhì)量上達到了行業(yè)領(lǐng)先水平。

IT之家援引博文介紹，在 VSSFlow 問世之前，行業(yè)內(nèi)的模型往往存在嚴重的偏科現(xiàn)象：視頻轉(zhuǎn)聲音模型（V2S）難以生成清晰的語音，而文本轉(zhuǎn)語音模型（TTS）又無法處理復(fù)雜的環(huán)境噪音。

傳統(tǒng)的解決方案通常是將兩者分階段訓練，這不僅增加了系統(tǒng)的復(fù)雜性，還常因任務(wù)沖突導致性能下降。VSSFlow 則另辟蹊徑，采用了 10 層架構(gòu)設(shè)計并引入“流匹配”技術(shù)，讓模型自主學習如何從隨機噪聲中，重構(gòu)出目標聲音信號。

蘋果聯(lián)合中國人民大學發(fā)布 VSSFlow 模型：無聲視頻 AI 同步生成音效與配音

研究團隊在訓練過程中發(fā)現(xiàn)了一個令人驚喜的現(xiàn)象：聯(lián)合訓練不僅沒有導致任務(wù)干擾，反而產(chǎn)生了“互助效應(yīng)”。即語音數(shù)據(jù)的訓練提升了音效生成的質(zhì)量，而音效數(shù)據(jù)的加入也優(yōu)化了語音的表現(xiàn)。

團隊為了實現(xiàn)這一效果，向模型投喂了混合數(shù)據(jù)，包括配有環(huán)境音的視頻、配有字幕的說話視頻以及純文本轉(zhuǎn)語音數(shù)據(jù)，并利用合成樣本微調(diào)模型，讓其學會同時輸出背景音與人聲。

在實際運行中，VSSFlow 以每秒 10 幀的頻率從視頻中提取視覺線索來塑造環(huán)境音效，同時依據(jù)文本腳本精確引導語音生成。

蘋果聯(lián)合中國人民大學發(fā)布 VSSFlow 模型：無聲視頻 AI 同步生成音效與配音

測試數(shù)據(jù)顯示，該模型在多項關(guān)鍵指標上均優(yōu)于專門針對單一任務(wù)設(shè)計的競品模型。研究團隊目前已在 GitHub 上開源了 VSSFlow 的代碼，并正在推進模型權(quán)重公開及在線推理演示的開發(fā)工作。

IT之家附上參考地址

GitHub：VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

蘋果聯(lián)合中國人民大學發(fā)布 VSSFlow 模型：無聲視頻 AI 同步生成音效與配音

相關(guān)文章