在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

蘋果聯(lián)合中國人民大學發(fā)布 VSSFlow 模型:無聲視頻 AI 同步生成音效與配音

2026/2/10 7:21:39 來源:IT之家 作者:故淵 責編:故淵

IT之家 2 月 10 日消息,科技媒體 9to5Mac 昨日(2 月 9 日)發(fā)布博文,報道稱蘋果公司攜手中國人民大學(簡稱人大),推出 VSSFlow 新型 AI 模型,突破了傳統(tǒng)音頻生成技術(shù)的瓶頸,僅需單一系統(tǒng)即可從無聲視頻中同時生成逼真的環(huán)境音效與人類語音。

該模型的核心能力在于“化靜為動”,能夠直接處理無聲視頻數(shù)據(jù),在單一系統(tǒng)的框架下,同步生成與畫面高度匹配的環(huán)境音效以及精準的語音對話。該成果不僅解決了過去音頻生成模型功能單一的問題,更在生成質(zhì)量上達到了行業(yè)領(lǐng)先水平。

IT之家援引博文介紹,在 VSSFlow 問世之前,行業(yè)內(nèi)的模型往往存在嚴重的偏科現(xiàn)象:視頻轉(zhuǎn)聲音模型(V2S)難以生成清晰的語音,而文本轉(zhuǎn)語音模型(TTS)又無法處理復(fù)雜的環(huán)境噪音。

傳統(tǒng)的解決方案通常是將兩者分階段訓練,這不僅增加了系統(tǒng)的復(fù)雜性,還常因任務(wù)沖突導致性能下降。VSSFlow 則另辟蹊徑,采用了 10 層架構(gòu)設(shè)計并引入“流匹配”技術(shù),讓模型自主學習如何從隨機噪聲中,重構(gòu)出目標聲音信號。

研究團隊在訓練過程中發(fā)現(xiàn)了一個令人驚喜的現(xiàn)象:聯(lián)合訓練不僅沒有導致任務(wù)干擾,反而產(chǎn)生了“互助效應(yīng)”。即語音數(shù)據(jù)的訓練提升了音效生成的質(zhì)量,而音效數(shù)據(jù)的加入也優(yōu)化了語音的表現(xiàn)。

團隊為了實現(xiàn)這一效果,向模型投喂了混合數(shù)據(jù),包括配有環(huán)境音的視頻、配有字幕的說話視頻以及純文本轉(zhuǎn)語音數(shù)據(jù),并利用合成樣本微調(diào)模型,讓其學會同時輸出背景音與人聲。

在實際運行中,VSSFlow 以每秒 10 幀的頻率從視頻中提取視覺線索來塑造環(huán)境音效,同時依據(jù)文本腳本精確引導語音生成。

測試數(shù)據(jù)顯示,該模型在多項關(guān)鍵指標上均優(yōu)于專門針對單一任務(wù)設(shè)計的競品模型。研究團隊目前已在 GitHub 上開源了 VSSFlow 的代碼,并正在推進模型權(quán)重公開及在線推理演示的開發(fā)工作。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:蘋果,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知