黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

螞蟻集團(tuán)開源Ming-flash-omni 2.0:全模態(tài)能力升級(jí),為多模態(tài)應(yīng)用開發(fā)提供新引擎

   時(shí)間:2026-02-11 12:21 來(lái)源:互聯(lián)網(wǎng)作者:柳晴雪

螞蟻集團(tuán)近日宣布,其自主研發(fā)的全模態(tài)大模型Ming-flash-omni 2.0正式開源,為全球開發(fā)者提供了一套支持多模態(tài)交互的通用能力框架。該模型在視覺語(yǔ)言理解、語(yǔ)音生成控制及圖像編輯等領(lǐng)域的多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,部分指標(biāo)甚至超越了專用模型,標(biāo)志著全模態(tài)技術(shù)向?qū)嵱没~出關(guān)鍵一步。

作為業(yè)界首個(gè)實(shí)現(xiàn)音頻全場(chǎng)景統(tǒng)一生成的模型,Ming-flash-omni 2.0突破了傳統(tǒng)語(yǔ)音合成與音效處理的界限。通過(guò)自然語(yǔ)言指令,用戶可同時(shí)操控語(yǔ)音、環(huán)境音效及背景音樂(lè)的生成,并精準(zhǔn)調(diào)節(jié)音色、語(yǔ)速、語(yǔ)調(diào)等12項(xiàng)參數(shù)。模型在推理效率上達(dá)到3.1Hz的幀率,支持分鐘級(jí)長(zhǎng)音頻的實(shí)時(shí)高保真輸出,其零樣本音色克隆技術(shù)更實(shí)現(xiàn)了無(wú)需訓(xùn)練即可復(fù)現(xiàn)特定聲音的能力。

技術(shù)團(tuán)隊(duì)透露,該模型基于Ling-2.0架構(gòu)(MoE,100B-A6B)構(gòu)建,通過(guò)系統(tǒng)性優(yōu)化實(shí)現(xiàn)了三大核心突破:視覺模塊整合億級(jí)細(xì)粒度數(shù)據(jù),顯著提升對(duì)復(fù)雜物體的識(shí)別精度;音頻模塊突破多軌生成限制,實(shí)現(xiàn)三要素同步合成;圖像模塊增強(qiáng)編輯穩(wěn)定性,支持光影動(dòng)態(tài)調(diào)整、場(chǎng)景智能替換等高級(jí)功能。在文物鑒定、工業(yè)檢測(cè)等場(chǎng)景中,模型對(duì)細(xì)微特征的識(shí)別準(zhǔn)確率較前代提升37%。

全模態(tài)技術(shù)的核心挑戰(zhàn)在于平衡通用性與專業(yè)性。螞蟻集團(tuán)通過(guò)分階段演進(jìn)策略破解這一難題:早期版本構(gòu)建多模態(tài)基礎(chǔ)能力,中期版本驗(yàn)證規(guī)模效應(yīng),2.0版本則通過(guò)10倍級(jí)數(shù)據(jù)擴(kuò)容與混合專家訓(xùn)練法,在保持開源模型開放性的同時(shí),使文本生成、圖像理解等任務(wù)達(dá)到行業(yè)頂尖水平。實(shí)測(cè)數(shù)據(jù)顯示,其語(yǔ)音合成質(zhì)量在MOS評(píng)分中達(dá)到4.8分(滿分5分),接近人類發(fā)音水平。

開源社區(qū)已同步上線模型權(quán)重與推理代碼,開發(fā)者可通過(guò)Hugging Face平臺(tái)直接調(diào)用。螞蟻百靈官方平臺(tái)Ling Studio更提供在線體驗(yàn)入口,用戶上傳圖片或音頻后,可實(shí)時(shí)測(cè)試模型的人物姿態(tài)優(yōu)化、一鍵修圖、情緒語(yǔ)音生成等功能。某影視后期團(tuán)隊(duì)測(cè)試后表示,該模型將傳統(tǒng)多軟件協(xié)作的流程壓縮至單一框架內(nèi),工作效率提升60%以上。

項(xiàng)目負(fù)責(zé)人指出,全模態(tài)架構(gòu)的價(jià)值在于消除不同模態(tài)間的調(diào)用壁壘。通過(guò)統(tǒng)一的能力底座,開發(fā)者可避免重復(fù)訓(xùn)練視覺、語(yǔ)音等基礎(chǔ)模塊,大幅降低AI應(yīng)用的開發(fā)成本。目前團(tuán)隊(duì)正攻關(guān)視頻時(shí)序理解與長(zhǎng)音頻實(shí)時(shí)生成技術(shù),未來(lái)計(jì)劃完善工具鏈生態(tài),推動(dòng)全模態(tài)技術(shù)在智慧醫(yī)療、數(shù)字內(nèi)容生產(chǎn)等領(lǐng)域的規(guī)?;涞?。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群