黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

小米MiMo-V2-TTS語音合成大模型登場:多風(fēng)格演繹還能方言唱歌

   時間:2026-03-19 15:44 來源:互聯(lián)網(wǎng)作者:顧雨柔

小米公司今日宣布推出全新自研語音合成大模型Xiaomi MiMo-V2-TTS,這款集語音生成、情感表達與音樂演繹能力于一體的技術(shù)成果,標(biāo)志著小米在智能語音領(lǐng)域?qū)崿F(xiàn)重大突破。該模型突破傳統(tǒng)語音合成的單一功能限制,不僅能夠完成自然流暢的對話輸出,更具備專業(yè)級的歌唱表現(xiàn)力,可精準(zhǔn)還原音高變化與節(jié)奏韻律。

技術(shù)架構(gòu)層面,研發(fā)團隊創(chuàng)新性地采用自研Audio Tokenizer與多碼本聯(lián)合建模方案,通過超億小時的語音數(shù)據(jù)預(yù)訓(xùn)練構(gòu)建起龐大的聲學(xué)知識庫。配合多維度強化學(xué)習(xí)機制,模型在保持輸出穩(wěn)定性的同時,實現(xiàn)了對語音風(fēng)格、情感強度的精細化控制。實驗數(shù)據(jù)顯示,該系統(tǒng)可精準(zhǔn)捕捉文本中的標(biāo)點符號、語氣詞等隱含表達意圖,自動轉(zhuǎn)化為符合人類交流習(xí)慣的語音特征。

在情感表達維度,MiMo-V2-TTS展現(xiàn)出驚人的控制力。系統(tǒng)支持從整體語氣定調(diào)到局部情感波動的多層級調(diào)節(jié),能夠在單句輸出中完成從平靜陳述到激動質(zhì)問的自然過渡。針對歌唱場景開發(fā)的專用模塊,通過解析樂譜中的音符時值與強弱記號,可生成媲美專業(yè)歌手的演唱效果,在清唱測試中獲得92.3%的音準(zhǔn)準(zhǔn)確率。

方言支持能力成為該模型的另一大亮點。通過構(gòu)建覆蓋東北官話、西南官話、中原官話、粵語及閩南語等五大方言區(qū)的語音數(shù)據(jù)庫,系統(tǒng)實現(xiàn)了對23種地方語音特征的精準(zhǔn)建模。在角色扮演測試中,模型可根據(jù)文本內(nèi)容自動切換方言語調(diào),配合情感控制模塊生成極具地域特色的語音輸出。

據(jù)技術(shù)白皮書披露,該模型已實現(xiàn)與小米多模態(tài)理解系統(tǒng)MiMo-V2-Omni的初步融合。這種跨模態(tài)協(xié)同架構(gòu)使AI代理在視覺感知的基礎(chǔ)上,能夠通過富有表現(xiàn)力的語音輸出實現(xiàn)更自然的人機交互。研發(fā)團隊透露,后續(xù)版本將擴展至日韓法德等15種外語,并優(yōu)化多語言混合場景下的語音生成質(zhì)量。

這項技術(shù)成果已應(yīng)用于小米智能音箱、車載系統(tǒng)及機器人產(chǎn)品線,用戶可通過OTA升級體驗最新功能。在內(nèi)部測試中,搭載該模型的設(shè)備在對話自然度評分中達到4.7分(滿分5分),較前代產(chǎn)品提升38%,特別是在情感表達豐富度和方言識別準(zhǔn)確率等關(guān)鍵指標(biāo)上表現(xiàn)突出。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群