IT 之家 5 月 28 日消息,騰訊混元公眾號今日發(fā)文宣布開源混元語音數(shù)字人模型,僅需一張圖和一段音頻,就能讓圖中的主角自然地說話、唱歌。
此次發(fā)布的并開源的語音數(shù)字人模型 HunyuanVideo-Avatar,由騰訊混元視頻大模型(HunyuanVideo)及騰訊音樂天琴實(shí)驗(yàn)室 MuseV 技術(shù)聯(lián)合研發(fā),支持頭肩、半身與全身景別,以及多風(fēng)格、多物種與雙人場景,面向視頻創(chuàng)作者提供高一致性、高動(dòng)態(tài)性的視頻生成能力。
用戶可上傳人物圖像與音頻,HunyuanVideo-Avatar 模型會(huì)自動(dòng)理解圖片與音頻,比如人物所在環(huán)境、音頻所蘊(yùn)含的情感等,讓圖中人物自然地說話或唱歌,生成包含自然表情、唇形同步及全身動(dòng)作的視頻。
HunyuanVideo-Avatar 適用于短視頻創(chuàng)作、電商與廣告等多種應(yīng)用場景,可以生成人物在不同場景下的說話、對話、表演等片段,快速制作產(chǎn)品介紹視頻或多人互動(dòng)廣告,降低制作成本。
HunyuanVideo-Avatar 的單主體能力已經(jīng)開源,并在騰訊混元官網(wǎng)上線,用戶可以在“模型廣場-混元生視頻-數(shù)字人-語音驅(qū)動(dòng)-HunyuanVideo-Avatar”中體驗(yàn),目前支持上傳不超過 14 秒的音頻進(jìn)行視頻生成,后續(xù)將逐步上線和開源其他能力。
IT 之家附有關(guān)鏈接如下:
體驗(yàn)入口:https://hunyuan.tencent.com/ modelSquare / home / play?modelId=126
項(xiàng)目主頁:https://hunyuanvideo-avatar.github.io
Github:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar
CNB:https://cnb.cool/tencent/hunyuan/HunyuanVideo-Avatar
技術(shù)報(bào)告:https://arxiv.org/ pdf/2505.20156
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。