黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

螞蟻技術(shù)研究院發(fā)布LLaDA2.0 擴(kuò)散語(yǔ)言模型 參數(shù)達(dá)100B且開源共享

   時(shí)間:2025-12-12 18:41 來源:快訊作者:柳晴雪

螞蟻技術(shù)研究院近日正式發(fā)布全新離散擴(kuò)散大語(yǔ)言模型系列——LLaDA2.0,同步公開的技術(shù)報(bào)告顯示,該系列包含100B參數(shù)的"flash"版本與16B參數(shù)的"mini"版本,成為全球首個(gè)突破百億參數(shù)的擴(kuò)散語(yǔ)言模型。這一突破性成果標(biāo)志著擴(kuò)散模型在參數(shù)規(guī)模擴(kuò)展領(lǐng)域取得重大進(jìn)展,成功打破業(yè)界對(duì)擴(kuò)散模型難以規(guī)?;瘧?yīng)用的固有認(rèn)知。

研發(fā)團(tuán)隊(duì)創(chuàng)新采用混合專家(MoE)架構(gòu),通過模塊化設(shè)計(jì)實(shí)現(xiàn)模型性能與計(jì)算效率的平衡。在訓(xùn)練策略方面,提出的Warmup-Stable-Decay(WSD)持續(xù)預(yù)訓(xùn)練方法,使新模型能夠直接繼承現(xiàn)有自回歸(AR)模型的知識(shí)體系,避免了傳統(tǒng)從頭訓(xùn)練帶來的高昂成本。配合置信度感知并行訓(xùn)練(CAP)與擴(kuò)散模型專用DPO技術(shù),在保證生成質(zhì)量的同時(shí),將推理速度提升至AR模型的2.1倍。

多維度評(píng)估數(shù)據(jù)顯示,LLaDA2.0在結(jié)構(gòu)化生成任務(wù)中表現(xiàn)尤為突出。在代碼生成、數(shù)學(xué)推理及智能體交互等場(chǎng)景下,其性能指標(biāo)全面超越同級(jí)別AR模型,而在自然語(yǔ)言理解等基礎(chǔ)能力方面則與開源AR模型持平。這種"專長(zhǎng)強(qiáng)化+基礎(chǔ)穩(wěn)固"的特性,為特定領(lǐng)域的大模型應(yīng)用開辟了新路徑。

為推動(dòng)技術(shù)生態(tài)發(fā)展,研究院已將16B與100B兩個(gè)版本的模型權(quán)重及完整訓(xùn)練代碼開源至Huggingface平臺(tái)。開發(fā)者可通過公開資源復(fù)現(xiàn)訓(xùn)練過程,或基于現(xiàn)有模型進(jìn)行二次開發(fā)。此次開源不僅降低了超大規(guī)模模型的技術(shù)門檻,更為學(xué)術(shù)界提供了研究擴(kuò)散模型規(guī)?;瘧?yīng)用的重要樣本。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群