在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

播客神器:微軟開源 VibeVoice-1.5B 音頻模型,支持中文、可生成 90 分鐘 4 人聊天語音

2025/8/27 7:47:40 來源:IT之家 作者:故淵 責(zé)編:故淵
感謝IT之家網(wǎng)友 地板轟鳴 的線索投遞!

IT之家 8 月 27 日消息,科技媒體 marktechpost 于 8 月 25 日發(fā)布博文,報道稱微軟發(fā)布開源文本轉(zhuǎn)語音(TTS)模型 VibeVoice-1.5B,可一次生成最長 90 分鐘、最多 4 位不同說話者的自然語音,并支持跨語言及歌聲合成。

在架構(gòu)方面,VibeVoice-1.5B 基于 1.5B 參數(shù)的 Qwen2.5 語言模型,結(jié)合聲學(xué)(Acoustic)與語義(Semantic)雙分詞器(Tokenizer),以 7.5Hz 低幀率處理。

聲學(xué)分詞器使用 σ-VAE 結(jié)構(gòu),將 24kHz 原始音頻壓縮至 3200 分之一;語義分詞器則通過語音識別代理任務(wù)訓(xùn)練,保留對話語義。解碼端采用 1.23 億參數(shù)的擴(kuò)散解碼器,結(jié)合分類器自由引導(dǎo)和 DPM-Solver,來提升音質(zhì)與細(xì)節(jié)表現(xiàn)。

該模型為確保在長篇對話中保持語音連貫性與說話人一致性,在訓(xùn)練中逐步擴(kuò)展上下文長度,從 4k 至 65k Tokens,其架構(gòu)支持多說話者的輪流發(fā)言,模擬自然對話場景,且可在流式模式下生成長音頻,為未來實(shí)時 TTS 奠定基礎(chǔ)。

VibeVoice-1.5B 也有局限,目前僅支持英語與中文,其他語言可能出現(xiàn)不準(zhǔn)確或不當(dāng)內(nèi)容;不支持說話人語音重疊,也無法生成背景音效或音樂。微軟明確禁止將該模型用于聲音冒充、虛假信息傳播或繞過身份驗(yàn)證等用途,并提醒用戶遵守法律并標(biāo)明 AI 生成來源。

微軟表示,該模型主要面向科研和開發(fā)者社區(qū),適合播客制作、對話式 AI、語音內(nèi)容生成等領(lǐng)域。未來將推出參數(shù)更大的 7B 版本,支持低延遲交互和更高保真度的實(shí)時合成,進(jìn)一步拓展應(yīng)用場景。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,AI模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知