阿里通義千問團(tuán)隊(duì)近日宣布推出全球首個原生語言世界模型(Language World Model, LWM)——Qwen-AgentWorld。該模型通過模擬七大領(lǐng)域的智能體交互環(huán)境,實(shí)現(xiàn)了跨領(lǐng)域知識遷移能力,在AgentWorldBench評測基準(zhǔn)中超越了GPT-5.4、Claude Opus 4.8及Gemini 3.1 Pro等國際主流模型。
模型構(gòu)建覆蓋文本類(MCP、Search、Terminal、SWE)與GUI類(Web、OS、Android)七類交互場景。針對圖形界面環(huán)境,研發(fā)團(tuán)隊(duì)創(chuàng)新采用可渲染代碼替代傳統(tǒng)像素幀作為環(huán)境觀測輸入,使純文本建模即可完整表征視覺信息。這種設(shè)計突破了多模態(tài)建模的常規(guī)路徑,為智能體訓(xùn)練提供了更高效的解決方案。
訓(xùn)練體系采用CPT→SFT→RL三階段架構(gòu),形成完整的原生世界建模閉環(huán)。在預(yù)訓(xùn)練階段,模型通過分析超千萬條真實(shí)交互軌跡,引入輪次級信息論損失掩碼技術(shù),精準(zhǔn)識別承載環(huán)境信息的對話輪次。指令微調(diào)階段將狀態(tài)預(yù)測轉(zhuǎn)化為思維鏈推理模式,強(qiáng)化學(xué)習(xí)階段則通過混合獎勵信號優(yōu)化輸出質(zhì)量。這種貫穿全流程的環(huán)境建模機(jī)制,使模型具備原生世界理解能力,而非簡單疊加環(huán)境模擬模塊。
同步發(fā)布的AgentWorldBench評測基準(zhǔn)包含七大領(lǐng)域測試集,每條樣本均配備真實(shí)環(huán)境執(zhí)行的ground-truth觀測數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)顯示,3970億參數(shù)版本Qwen-AgentWorld-397B-A17B取得58.71分的綜合成績,在Terminal和SWE領(lǐng)域較GPT-5.4提升顯著。350億參數(shù)版本通過三階段訓(xùn)練提升8.66分,性能超越Claude Sonnet 4.6,驗(yàn)證了小規(guī)模模型的高效訓(xùn)練路徑。
研發(fā)團(tuán)隊(duì)提出兩種互補(bǔ)的世界建模應(yīng)用范式:作為獨(dú)立環(huán)境模擬器時,模型可為強(qiáng)化學(xué)習(xí)提供可控的虛擬訓(xùn)練場,其塑造智能體行為的能力遠(yuǎn)超純真實(shí)環(huán)境訓(xùn)練;作為基礎(chǔ)模型時,經(jīng)LWM預(yù)訓(xùn)練的智能體可直接遷移至多輪任務(wù),無需額外微調(diào)即可展現(xiàn)優(yōu)異性能。目前模型與評測基準(zhǔn)已在Hugging Face和ModelScope平臺開源,為智能體研究提供新的技術(shù)路徑。














