99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進業(yè)內(nèi)人士交流分享!

阿里開源首個原生語言世界模型Qwen-AgentWorld,為AI智能體訓(xùn)練開辟新路徑

   發(fā)布時間:2026-06-24 23:08 作者:柳晴雪

阿里最新推出的原生語言世界模型Qwen-AgentWorld,為AI智能體研發(fā)領(lǐng)域帶來突破性進展。這款具備35B-A3B與397B-A17B雙參數(shù)規(guī)模的模型,首次實現(xiàn)了在單一架構(gòu)中同時覆蓋文本類與GUI類七大交互環(huán)境,包括MCP、Search、Terminal、SWE等文本環(huán)境,以及Web、OS、Android三類圖形界面環(huán)境。

與傳統(tǒng)訓(xùn)練方式不同,該模型創(chuàng)新性地將環(huán)境建模貫穿于CPT→SFT→RL的全訓(xùn)練流程。研究團隊通過分析超千萬條真實交互軌跡發(fā)現(xiàn),這種訓(xùn)練范式使模型能夠直接在預(yù)訓(xùn)練階段理解環(huán)境動態(tài),而非依賴后期專項訓(xùn)練。在GUI環(huán)境處理上,模型采用可渲染代碼(如無障礙樹XML、HTML)替代像素級處理,通過純文本建模實現(xiàn)視覺環(huán)境模擬,這種技術(shù)路徑既降低了計算復(fù)雜度,又保持了跨領(lǐng)域遷移能力。

在性能評估方面,配套發(fā)布的AgentWorldBench評測基準顯示,397B-A17B版本在整體模擬質(zhì)量上超越GPT-5.4、Claude Opus 4.8等前沿模型,特別是在Terminal和SWE領(lǐng)域的代碼執(zhí)行狀態(tài)模擬中表現(xiàn)突出。35B-A3B版本通過三階段訓(xùn)練流水線,整體得分提升8.66分,成功超越Claude Sonnet 4.6。該基準采用開放式評分體系,從格式規(guī)范、事實準確性、邏輯一致性等五個維度進行綜合評估。

模型在復(fù)雜推理任務(wù)中展現(xiàn)出獨特優(yōu)勢。研究團隊通過分析129條思維鏈發(fā)現(xiàn)三種典型推理模式:在自我修正方面,模型平均每輪產(chǎn)生10.4次"Wait!"觸發(fā)的糾錯行為;搜索任務(wù)中通過摘要控制防止信息泄露;在預(yù)測curl命令輸出時,模型構(gòu)建了包含服務(wù)器狀態(tài)、端口監(jiān)聽、管道傳輸?shù)?個步驟的完整因果鏈。這些能力使模型在處理需要長上下文記憶和領(lǐng)域知識的任務(wù)時表現(xiàn)尤為出色。

技術(shù)實現(xiàn)層面,該模型通過解耦環(huán)境模擬器與智能體訓(xùn)練過程,在保持真實環(huán)境交互可靠性的同時,提供了超越物理限制的可擴展性。在OS環(huán)境模擬測試中,模型準確預(yù)測了從菜單欄啟動打印任務(wù)的完整操作路徑;網(wǎng)站交互測試中,成功模擬了"添加用戶"按鈕的點擊反饋。這些案例驗證了模型在跨領(lǐng)域知識遷移方面的有效性,為構(gòu)建通用智能體奠定了技術(shù)基礎(chǔ)。

目前,Qwen-AgentWorld-35B-A3B模型權(quán)重及AgentWorldBench評測基準已通過GitHub、ModelScope和Hugging Face平臺開源。這種開放策略不僅降低了智能體研發(fā)門檻,更通過提供標準化評估工具,推動了整個領(lǐng)域的技術(shù)進步。研究團隊強調(diào),語言世界建模不是要取代真實環(huán)境交互,而是通過提供可控的模擬環(huán)境,幫助智能體突破物理世界的訓(xùn)練限制。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新