黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

雷軍宣布小米AI創(chuàng)新成果閃耀I(xiàn)CASSP 2026,多領(lǐng)域技術(shù)突破引領(lǐng)未來

   時間:2026-01-22 19:00 來源:快訊作者:朱天宇

小米在人工智能領(lǐng)域再獲突破,其多項AI創(chuàng)新成果成功入選國際頂級學(xué)術(shù)會議ICASSP 2026。這一會議作為全球音頻領(lǐng)域最具權(quán)威性與影響力的學(xué)術(shù)盛會之一,自1976年在美國費城首次舉辦以來,已有近50年歷史。ICASSP 2026將于今年5月在西班牙巴塞羅那舉行,小米的入選標(biāo)志著其在AI技術(shù)研發(fā)上的國際領(lǐng)先地位。

在音頻理解領(lǐng)域,小米團隊推出了名為ACAVCaps的創(chuàng)新數(shù)據(jù)集。該數(shù)據(jù)集通過自動化管線,從多維度、多視角對音頻內(nèi)容進(jìn)行精細(xì)化描述,解決了現(xiàn)有數(shù)據(jù)集在規(guī)模與描述粒度上難以兼得的瓶頸。ACAVCaps構(gòu)建了多級自動化標(biāo)注框架,利用多個專家模型并行提取音頻中的關(guān)鍵元數(shù)據(jù),并通過大語言模型和思維鏈推理策略進(jìn)行邏輯整合。這一方法使標(biāo)注文本從單一標(biāo)簽進(jìn)化為具備邏輯層次和上下文信息的自然語言。ACAVCaps包含約470萬條音頻-文本對,將推動音頻AI從簡單的特征識別向深度的語義理解發(fā)展,并計劃近期全面開源。

在聯(lián)邦學(xué)習(xí)領(lǐng)域,小米提出了FedDCG框架,首次在聯(lián)邦學(xué)習(xí)設(shè)置下聯(lián)合解決類別和域泛化問題。傳統(tǒng)方法往往因決策邊界混淆、計算資源限制等問題,在復(fù)雜場景下性能受限。FedDCG通過域分組策略和類特定協(xié)作訓(xùn)練機制,避免了類別和領(lǐng)域決策邊界之間的混淆,顯著提升了模型在未知環(huán)境中的準(zhǔn)確性與魯棒性。實驗表明,F(xiàn)edDCG在多個數(shù)據(jù)集上的表現(xiàn)優(yōu)于當(dāng)前最先進(jìn)的基線方法,尤其在數(shù)據(jù)稀缺場景下仍保持領(lǐng)先,為跨域圖像分類和隱私保護(hù)下的模型部署提供了可行路徑。

在音樂生成感知評估方面,小米團隊提出了FUSEMOS架構(gòu)。現(xiàn)有自動音樂感知評估方法主要依賴單一音頻編碼器,難以捕捉音樂中的復(fù)雜結(jié)構(gòu)與細(xì)粒度特征。FUSEMOS融合了CLAP與MERT兩大預(yù)訓(xùn)練模型,通過雙編碼器架構(gòu)實現(xiàn)更精準(zhǔn)、更貼近人類聽覺感知的評估。實驗結(jié)果表明,F(xiàn)USEMOS在關(guān)鍵指標(biāo)上顯著優(yōu)于現(xiàn)有方法,驗證了其在音樂感知評估中的有效性。

小米還提出了GLAP模型,實現(xiàn)了跨音頻領(lǐng)域與跨語言的音頻-文本對齊。GLAP首次通過單一框架同時優(yōu)化語音、音樂及聲音事件的檢索與分類性能,解決了傳統(tǒng)CLAP模型領(lǐng)域割裂的問題。該模型在多個語音和聲音檢索基準(zhǔn)上保持競爭力,并具備多語言泛化能力,無需目標(biāo)語種微調(diào)即可在50種語言的關(guān)鍵詞識別中展現(xiàn)Zero-shot能力。GLAP將直接賦能小米“人車家全生態(tài)”中的跨模態(tài)理解場景,如復(fù)雜聲學(xué)場景下的魯棒語音交互、車載多模指令理解等。

在視頻到音頻合成領(lǐng)域,小米團隊提出了MeanFlow模型,實現(xiàn)了推理效率與生成質(zhì)量的雙重突破。MeanFlow通過平均速度場建模替代傳統(tǒng)流匹配模型的瞬時速度建模,解決了多步迭代采樣導(dǎo)致的推理速度瓶頸,實現(xiàn)推理階段的一步生成。實驗表明,MeanFlow在推理速度大幅提升的同時,精準(zhǔn)保障了音效生成質(zhì)量,并確保音視頻語義對齊與時間同步性。該模型將顯著降低下游音視頻創(chuàng)作與智能交互產(chǎn)品的研發(fā)門檻,推動實時音效生成技術(shù)的規(guī)?;涞?。

在多模態(tài)檢索領(lǐng)域,小米提出了一種統(tǒng)一的多任務(wù)學(xué)習(xí)框架,將“找圖、找文、意圖理解”整合到兩個模型中。該框架通過文本編碼器同時對齊圖像和文本的語義空間,并通過跨注意力機制與NLU模型進(jìn)行語義交互,實現(xiàn)了意圖感知和語義增強。實驗表明,該框架在找圖與找文任務(wù)上均達(dá)到或超過現(xiàn)有最優(yōu)方法,并支持多語言輸入,為小米手機場景下的多模態(tài)檢索提供了輕量化、高性能的解決方案。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群