騰訊開源混元語音數(shù)字人模型：一張圖一段音頻就能讓圖中人物說話唱歌

2025/5/28 16:47:54 來源：IT之家作者：清源責(zé)編：清源

評論：

感謝IT之家網(wǎng)友西窗的線索投遞！

IT 之家 5 月 28 日消息，騰訊混元公眾號今日發(fā)文宣布開源混元語音數(shù)字人模型，僅需一張圖和一段音頻，就能讓圖中的主角自然地說話、唱歌。

此次發(fā)布的并開源的語音數(shù)字人模型 HunyuanVideo-Avatar，由騰訊混元視頻大模型（HunyuanVideo）及騰訊音樂天琴實(shí)驗(yàn)室 MuseV 技術(shù)聯(lián)合研發(fā)，支持頭肩、半身與全身景別，以及多風(fēng)格、多物種與雙人場景，面向視頻創(chuàng)作者提供高一致性、高動(dòng)態(tài)性的視頻生成能力。

用戶可上傳人物圖像與音頻，HunyuanVideo-Avatar 模型會(huì)自動(dòng)理解圖片與音頻，比如人物所在環(huán)境、音頻所蘊(yùn)含的情感等，讓圖中人物自然地說話或唱歌，生成包含自然表情、唇形同步及全身動(dòng)作的視頻。

HunyuanVideo-Avatar 適用于短視頻創(chuàng)作、電商與廣告等多種應(yīng)用場景，可以生成人物在不同場景下的說話、對話、表演等片段，快速制作產(chǎn)品介紹視頻或多人互動(dòng)廣告，降低制作成本。

HunyuanVideo-Avatar 的單主體能力已經(jīng)開源，并在騰訊混元官網(wǎng)上線，用戶可以在“模型廣場-混元生視頻-數(shù)字人-語音驅(qū)動(dòng)-HunyuanVideo-Avatar”中體驗(yàn)，目前支持上傳不超過 14 秒的音頻進(jìn)行視頻生成，后續(xù)將逐步上線和開源其他能力。

IT 之家附有關(guān)鏈接如下：

體驗(yàn)入口：https://hunyuan.tencent.com/ modelSquare / home / play?modelId=126
項(xiàng)目主頁：https://hunyuanvideo-avatar.github.io
Github：https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar
CNB：https://cnb.cool/tencent/hunyuan/HunyuanVideo-Avatar
技術(shù)報(bào)告：https://arxiv.org/ pdf/2505.20156

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

騰訊開源混元語音數(shù)字人模型：一張圖一段音頻就能讓圖中人物說話唱歌

相關(guān)文章