通義千問團(tuán)隊(duì)發(fā)布Qwen-AgentWorld：原生語言世界模型開啟智能體交互新篇章

發(fā)布時間：2026-06-24 15:00 來源：快訊作者：趙磊

阿里通義千問團(tuán)隊(duì)近日宣布推出全球首個原生語言世界模型（Language World Model, LWM）——Qwen-AgentWorld。該模型通過模擬七大領(lǐng)域的智能體交互環(huán)境，實(shí)現(xiàn)了跨領(lǐng)域知識遷移能力，在AgentWorldBench評測基準(zhǔn)中超越了GPT-5.4、Claude Opus 4.8及Gemini 3.1 Pro等國際主流模型。

模型構(gòu)建覆蓋文本類（MCP、Search、Terminal、SWE）與GUI類（Web、OS、Android）七類交互場景。針對圖形界面環(huán)境，研發(fā)團(tuán)隊(duì)創(chuàng)新采用可渲染代碼替代傳統(tǒng)像素幀作為環(huán)境觀測輸入，使純文本建模即可完整表征視覺信息。這種設(shè)計突破了多模態(tài)建模的常規(guī)路徑，為智能體訓(xùn)練提供了更高效的解決方案。

訓(xùn)練體系采用CPT→SFT→RL三階段架構(gòu)，形成完整的原生世界建模閉環(huán)。在預(yù)訓(xùn)練階段，模型通過分析超千萬條真實(shí)交互軌跡，引入輪次級信息論損失掩碼技術(shù)，精準(zhǔn)識別承載環(huán)境信息的對話輪次。指令微調(diào)階段將狀態(tài)預(yù)測轉(zhuǎn)化為思維鏈推理模式，強(qiáng)化學(xué)習(xí)階段則通過混合獎勵信號優(yōu)化輸出質(zhì)量。這種貫穿全流程的環(huán)境建模機(jī)制，使模型具備原生世界理解能力，而非簡單疊加環(huán)境模擬模塊。

同步發(fā)布的AgentWorldBench評測基準(zhǔn)包含七大領(lǐng)域測試集，每條樣本均配備真實(shí)環(huán)境執(zhí)行的ground-truth觀測數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)顯示，3970億參數(shù)版本Qwen-AgentWorld-397B-A17B取得58.71分的綜合成績，在Terminal和SWE領(lǐng)域較GPT-5.4提升顯著。350億參數(shù)版本通過三階段訓(xùn)練提升8.66分，性能超越Claude Sonnet 4.6，驗(yàn)證了小規(guī)模模型的高效訓(xùn)練路徑。

研發(fā)團(tuán)隊(duì)提出兩種互補(bǔ)的世界建模應(yīng)用范式：作為獨(dú)立環(huán)境模擬器時，模型可為強(qiáng)化學(xué)習(xí)提供可控的虛擬訓(xùn)練場，其塑造智能體行為的能力遠(yuǎn)超純真實(shí)環(huán)境訓(xùn)練；作為基礎(chǔ)模型時，經(jīng)LWM預(yù)訓(xùn)練的智能體可直接遷移至多輪任務(wù)，無需額外微調(diào)即可展現(xiàn)優(yōu)異性能。目前模型與評測基準(zhǔn)已在Hugging Face和ModelScope平臺開源，為智能體研究提供新的技術(shù)路徑。

更多>同類內(nèi)容