阿里開源首個原生語言世界模型Qwen-AgentWorld，為AI智能體訓(xùn)練開辟新路徑

發(fā)布時間：2026-06-24 23:08 來源：快訊作者：柳晴雪

阿里最新推出的原生語言世界模型Qwen-AgentWorld，為AI智能體研發(fā)領(lǐng)域帶來突破性進展。這款具備35B-A3B與397B-A17B雙參數(shù)規(guī)模的模型，首次實現(xiàn)了在單一架構(gòu)中同時覆蓋文本類與GUI類七大交互環(huán)境，包括MCP、Search、Terminal、SWE等文本環(huán)境，以及Web、OS、Android三類圖形界面環(huán)境。

與傳統(tǒng)訓(xùn)練方式不同，該模型創(chuàng)新性地將環(huán)境建模貫穿于CPT→SFT→RL的全訓(xùn)練流程。研究團隊通過分析超千萬條真實交互軌跡發(fā)現(xiàn)，這種訓(xùn)練范式使模型能夠直接在預(yù)訓(xùn)練階段理解環(huán)境動態(tài)，而非依賴后期專項訓(xùn)練。在GUI環(huán)境處理上，模型采用可渲染代碼（如無障礙樹XML、HTML）替代像素級處理，通過純文本建模實現(xiàn)視覺環(huán)境模擬，這種技術(shù)路徑既降低了計算復(fù)雜度，又保持了跨領(lǐng)域遷移能力。

在性能評估方面，配套發(fā)布的AgentWorldBench評測基準顯示，397B-A17B版本在整體模擬質(zhì)量上超越GPT-5.4、Claude Opus 4.8等前沿模型，特別是在Terminal和SWE領(lǐng)域的代碼執(zhí)行狀態(tài)模擬中表現(xiàn)突出。35B-A3B版本通過三階段訓(xùn)練流水線，整體得分提升8.66分，成功超越Claude Sonnet 4.6。該基準采用開放式評分體系，從格式規(guī)范、事實準確性、邏輯一致性等五個維度進行綜合評估。

模型在復(fù)雜推理任務(wù)中展現(xiàn)出獨特優(yōu)勢。研究團隊通過分析129條思維鏈發(fā)現(xiàn)三種典型推理模式：在自我修正方面，模型平均每輪產(chǎn)生10.4次"Wait!"觸發(fā)的糾錯行為；搜索任務(wù)中通過摘要控制防止信息泄露；在預(yù)測curl命令輸出時，模型構(gòu)建了包含服務(wù)器狀態(tài)、端口監(jiān)聽、管道傳輸?shù)?個步驟的完整因果鏈。這些能力使模型在處理需要長上下文記憶和領(lǐng)域知識的任務(wù)時表現(xiàn)尤為出色。

技術(shù)實現(xiàn)層面，該模型通過解耦環(huán)境模擬器與智能體訓(xùn)練過程，在保持真實環(huán)境交互可靠性的同時，提供了超越物理限制的可擴展性。在OS環(huán)境模擬測試中，模型準確預(yù)測了從菜單欄啟動打印任務(wù)的完整操作路徑；網(wǎng)站交互測試中，成功模擬了"添加用戶"按鈕的點擊反饋。這些案例驗證了模型在跨領(lǐng)域知識遷移方面的有效性，為構(gòu)建通用智能體奠定了技術(shù)基礎(chǔ)。

目前，Qwen-AgentWorld-35B-A3B模型權(quán)重及AgentWorldBench評測基準已通過GitHub、ModelScope和Hugging Face平臺開源。這種開放策略不僅降低了智能體研發(fā)門檻，更通過提供標準化評估工具，推動了整個領(lǐng)域的技術(shù)進步。研究團隊強調(diào)，語言世界建模不是要取代真實環(huán)境交互，而是通過提供可控的模擬環(huán)境，幫助智能體突破物理世界的訓(xùn)練限制。

更多>同類內(nèi)容