黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

蘋果聯(lián)合特拉維夫大學(xué)推PCG技術(shù):AI語音生成效率質(zhì)量雙提升

   時間:2026-02-03 16:18 來源:快訊作者:江紫萱

科技領(lǐng)域近日迎來一項重要突破,蘋果公司與特拉維夫大學(xué)聯(lián)合研發(fā)的“原則性粗粒度”(PCG)語音生成技術(shù),為AI文本轉(zhuǎn)語音(TTS)領(lǐng)域帶來了新的解決方案。這項技術(shù)通過優(yōu)化驗證機制,成功突破了傳統(tǒng)模型在生成速度上的瓶頸。

當(dāng)前主流的TTS技術(shù)多采用自回歸模型,其工作原理類似于“逐字拼寫”——系統(tǒng)基于已生成的語音片段預(yù)測下一個音素。這種模式要求預(yù)測結(jié)果必須與預(yù)設(shè)值完全匹配,導(dǎo)致許多聽覺效果相近但未完全吻合的輸出被系統(tǒng)拒絕。這種嚴(yán)苛的驗證標(biāo)準(zhǔn)雖然保證了準(zhǔn)確性,卻顯著降低了整體生成效率。

研究團隊提出的PCG技術(shù)通過引入“聲學(xué)相似組”概念,重構(gòu)了驗證邏輯。該技術(shù)不再將每個語音單元視為獨立個體,而是將具有相似聽覺效果的音素歸為同一組別。只要預(yù)測結(jié)果落在正確組別范圍內(nèi),系統(tǒng)即判定為有效輸出。這種“范圍驗證”機制相比傳統(tǒng)的“單點驗證”,在保持音質(zhì)的同時大幅提升了處理速度。

在技術(shù)實現(xiàn)層面,PCG采用雙模型協(xié)作架構(gòu):輕量級模型負(fù)責(zé)快速生成候選音素,大型“裁判模型”則負(fù)責(zé)質(zhì)量把控。當(dāng)候選音素屬于正確聲學(xué)組時,系統(tǒng)直接采用該結(jié)果。這種分工模式既保留了小模型的高效特性,又通過大模型確保了輸出質(zhì)量,實現(xiàn)了效率與準(zhǔn)確性的平衡。

實驗數(shù)據(jù)顯示,應(yīng)用PCG技術(shù)后,語音生成速度提升約40%,而音質(zhì)評分仍保持在4.09分(滿分5分)的高水平。在極端測試中,研究人員將91.4%的語音單元替換為同組其他音素,結(jié)果僅導(dǎo)致詞錯率微增0.007,說話人相似度下降0.027,這些變化幾乎無法被人類聽覺感知。

作為推理階段的優(yōu)化方案,PCG技術(shù)無需重新訓(xùn)練現(xiàn)有模型即可直接部署,僅需約37MB的額外內(nèi)存用于存儲聲學(xué)相似組數(shù)據(jù)。這種輕量化特性使其具備廣泛的適用性,為語音合成技術(shù)的實際應(yīng)用開辟了新路徑。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群