在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

蘋果公布 PCG 技術(shù):質(zhì)量零妥協(xié)、AI 語音生成提速 40%

2026/2/3 8:17:55 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 2 月 3 日消息,科技媒體 9to5Mac 今天(2 月 3 日)發(fā)布博文,報道稱蘋果公司攜手特拉維夫大學(xué),聯(lián)合發(fā)表論文,提出名為“原則性粗粒度”(PCG)的語音生成新方法,從而解決 AI 文本轉(zhuǎn)語音(TTS)技術(shù)的速度瓶頸。

IT之家援引博文介紹,在生成語音方面,目前行業(yè)主流采用“自回歸模型”,采用“逐個預(yù)測”的方式,即基于已有的 tokens 來預(yù)測下一個。

然而,這種機制要求預(yù)測結(jié)果必須“精確匹配”預(yù)設(shè)的 tokens,導(dǎo)致模型經(jīng)常拒絕實際上聽感差異極小、完全可用的預(yù)測結(jié)果。這種過于嚴(yán)苛的驗證標(biāo)準(zhǔn),直接拖慢了整體的生成速度。

研究團隊為了解決上述問題,提出了“原則性粗粒度”(Principled Coarse-Graining,簡稱 PCG)技術(shù)。該技術(shù)的核心邏輯在于“求同存異”:研究人員認(rèn)為,不同的聲學(xué) token 往往能產(chǎn)生幾乎相同的聽覺效果。

因此,PCG 不再將每個聲音視為完全獨立的個體,而是建立了“聲學(xué)相似組”。只要模型生成的預(yù)測 token 落在正確的“相似組”范圍內(nèi),系統(tǒng)就會予以采納。這種靈活的驗證機制,本質(zhì)上是將嚴(yán)苛的“單點驗證”升級為了容錯率更高的“范圍驗證”。

在具體運行中,PCG 引入了“投機解碼”策略,構(gòu)建了一套雙模型協(xié)作架構(gòu)。首先,由一個輕量級的小模型快速“猜測”并提出候選語音 token;隨后,由一個參數(shù)更大的“裁判模型”進行審核。

只要候選 token 屬于正確的聲學(xué)組,大模型便會“放行”。這種分工不僅保留了小模型的高速度,也利用大模型保障了輸出質(zhì)量,有效平衡了效率與準(zhǔn)確性。

試驗數(shù)據(jù)顯示,應(yīng)用 PCG 技術(shù)后,語音生成速度提升了約 40%,且并未犧牲音頻質(zhì)量。在自然度評分(滿分 5 分)中,該模型取得了 4.09 的高分。

在一項極限壓力測試中,研究人員將 91.4% 的語音 token 替換為同組的其他 token,結(jié)果顯示詞錯率僅增加了 0.007,說話人相似度僅下降 0.027,人耳幾乎無法察覺差異。

PCG 屬于“推理階段”的優(yōu)化方案,意味著無需對現(xiàn)有模型進行耗時耗力的重新訓(xùn)練即可直接應(yīng)用。此外,存儲聲學(xué)相似組僅需約 37MB 的額外內(nèi)存。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:蘋果AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知