IT之家 2 月 10 日消息,科技媒體 9to5Mac 昨日(2 月 9 日)發(fā)布博文,報道稱蘋果公司攜手中國人民大學(簡稱人大),推出 VSSFlow 新型 AI 模型,突破了傳統(tǒng)音頻生成技術(shù)的瓶頸,僅需單一系統(tǒng)即可從無聲視頻中同時生成逼真的環(huán)境音效與人類語音。
該模型的核心能力在于“化靜為動”,能夠直接處理無聲視頻數(shù)據(jù),在單一系統(tǒng)的框架下,同步生成與畫面高度匹配的環(huán)境音效以及精準的語音對話。該成果不僅解決了過去音頻生成模型功能單一的問題,更在生成質(zhì)量上達到了行業(yè)領(lǐng)先水平。

IT之家援引博文介紹,在 VSSFlow 問世之前,行業(yè)內(nèi)的模型往往存在嚴重的偏科現(xiàn)象:視頻轉(zhuǎn)聲音模型(V2S)難以生成清晰的語音,而文本轉(zhuǎn)語音模型(TTS)又無法處理復(fù)雜的環(huán)境噪音。
傳統(tǒng)的解決方案通常是將兩者分階段訓練,這不僅增加了系統(tǒng)的復(fù)雜性,還常因任務(wù)沖突導致性能下降。VSSFlow 則另辟蹊徑,采用了 10 層架構(gòu)設(shè)計并引入“流匹配”技術(shù),讓模型自主學習如何從隨機噪聲中,重構(gòu)出目標聲音信號。

研究團隊在訓練過程中發(fā)現(xiàn)了一個令人驚喜的現(xiàn)象:聯(lián)合訓練不僅沒有導致任務(wù)干擾,反而產(chǎn)生了“互助效應(yīng)”。即語音數(shù)據(jù)的訓練提升了音效生成的質(zhì)量,而音效數(shù)據(jù)的加入也優(yōu)化了語音的表現(xiàn)。
團隊為了實現(xiàn)這一效果,向模型投喂了混合數(shù)據(jù),包括配有環(huán)境音的視頻、配有字幕的說話視頻以及純文本轉(zhuǎn)語音數(shù)據(jù),并利用合成樣本微調(diào)模型,讓其學會同時輸出背景音與人聲。
在實際運行中,VSSFlow 以每秒 10 幀的頻率從視頻中提取視覺線索來塑造環(huán)境音效,同時依據(jù)文本腳本精確引導語音生成。

測試數(shù)據(jù)顯示,該模型在多項關(guān)鍵指標上均優(yōu)于專門針對單一任務(wù)設(shè)計的競品模型。研究團隊目前已在 GitHub 上開源了 VSSFlow 的代碼,并正在推進模型權(quán)重公開及在線推理演示的開發(fā)工作。
IT之家附上參考地址
GitHub:VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。