阿里發(fā)布首個(gè)原生語(yǔ)言世界模型Qwen-AgentWorld，推動(dòng)通用智能體發(fā)展新路徑-行業(yè)縱橫-媒體界

阿里發(fā)布首個(gè)原生語(yǔ)言世界模型Qwen-AgentWorld，推動(dòng)通用智能體發(fā)展新路徑

發(fā)布時(shí)間：2026-06-24 18:00 來(lái)源：快訊作者：吳婷

阿里近日宣布推出其首個(gè)原生語(yǔ)言世界模型（LWM）Qwen-AgentWorld，該模型專(zhuān)為AI智能體的研發(fā)與訓(xùn)練設(shè)計(jì)，提供35B-A3B與397B-A17B兩種參數(shù)規(guī)模版本。與傳統(tǒng)模型不同，Qwen-AgentWorld的核心目標(biāo)并非降低成本或替代真實(shí)交互環(huán)境，而是通過(guò)內(nèi)部模擬環(huán)境反饋來(lái)增強(qiáng)智能體的決策能力，使其在執(zhí)行動(dòng)作前能夠預(yù)判結(jié)果。

Qwen-AgentWorld的兩大創(chuàng)新點(diǎn)在于：其一，從預(yù)訓(xùn)練階段就將環(huán)境建模納入訓(xùn)練目標(biāo)，貫穿CPT→SFT→RL全流程，突破了傳統(tǒng)模型先訓(xùn)練后適配環(huán)境的模式；其二，單一模型可同時(shí)覆蓋文本類(lèi)（MCP、Search、Terminal、SWE）與GUI類(lèi)（Web、OS、Android）共7類(lèi)環(huán)境，實(shí)現(xiàn)跨領(lǐng)域知識(shí)遷移。例如，該模型能模擬手機(jī)系統(tǒng)操作，通過(guò)預(yù)測(cè)點(diǎn)擊刪除圖標(biāo)后的界面變化，驗(yàn)證其環(huán)境理解能力。

為評(píng)估模型性能，阿里同步發(fā)布評(píng)測(cè)基準(zhǔn)AgentWorldBench。該基準(zhǔn)基于5個(gè)前沿模型在9個(gè)真實(shí)環(huán)境交互數(shù)據(jù)集上的表現(xiàn)構(gòu)建，采用開(kāi)放式評(píng)分標(biāo)準(zhǔn)，從格式、事實(shí)性、一致性、真實(shí)性和質(zhì)量五個(gè)維度綜合評(píng)估。測(cè)試結(jié)果顯示，397B-A17B版本以58.71分的整體均分超越GPT-5.4（58.25分）、Claude Opus 4.8與Gemini 3.1 Pro，尤其在Terminal和SWE領(lǐng)域表現(xiàn)突出，這得益于其對(duì)代碼執(zhí)行狀態(tài)和工具API行為的精準(zhǔn)模擬。35B-A3B版本通過(guò)三階段訓(xùn)練流水線提升8.66分，性能超越Claude Sonnet 4.6。

進(jìn)一步分析模型思維鏈發(fā)現(xiàn)，Qwen-AgentWorld涌現(xiàn)出三種獨(dú)特推理模式：一是自我修正能力，模型通過(guò)“Wait!”信號(hào)觸發(fā)中斷，修正事實(shí)錯(cuò)誤或視角偏差，129個(gè)輪次中平均每輪修正10.4次；二是信息泄漏防護(hù)機(jī)制，在搜索任務(wù)中，模型主動(dòng)屏蔽無(wú)關(guān)查詢(xún)與目標(biāo)答案的關(guān)聯(lián)，避免數(shù)據(jù)泄露；三是多步因果推理，例如預(yù)測(cè)“curl -s localhost:3000 | python3 -m json.tool”的輸出時(shí)，模型需構(gòu)建6步推理鏈，涵蓋服務(wù)器狀態(tài)、端口監(jiān)聽(tīng)、工具行為等環(huán)節(jié)。

作為統(tǒng)一智能體基礎(chǔ)模型，Qwen-AgentWorld的預(yù)訓(xùn)練能力可直接遷移至多輪智能體任務(wù)，覆蓋七個(gè)基準(zhǔn)測(cè)試集，且無(wú)需針對(duì)具體任務(wù)進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。這一特性驗(yàn)證了語(yǔ)言世界模型作為構(gòu)建更強(qiáng)智能體基礎(chǔ)的潛力，為突破真實(shí)環(huán)境交互的限制提供了新路徑。目前，阿里已開(kāi)源35B-A3B模型權(quán)重及AgentWorldBench評(píng)估基準(zhǔn)，開(kāi)發(fā)者可通過(guò)GitHub、ModelScope和Hugging Face平臺(tái)獲取資源。

更多>同類(lèi)內(nèi)容

99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

阿里發(fā)布首個(gè)原生語(yǔ)言世界模型Qwen-AgentWorld，推動(dòng)通用智能體發(fā)展新路徑

99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线兰|寡妇的肉体完整版