阿里Qwen團隊發布機器人三大基礎模型賦能機器人“思考”“行動”與“預測”

發布時間：2026-06-17 13:33 來源：互聯網作者：朱天宇

Qwen團隊近日宣布推出一套全新的機器人套件，包含Qwen-RobotNav、Qwen-RobotManip與Qwen-RobotWorld三大基礎模型。這一創新成果標志著語言與物理動作的深度融合邁入新階段，為機器人執行復雜任務提供了更智能的解決方案。

Qwen-RobotNav專注于移動控制領域，通過可控觀測編碼和工具接口技術，將視覺語言能力轉化為精準的移動指令。該模型實現了指令跟隨、點/目標導航、目標追蹤和自動駕駛四類任務的統一處理，使機器人能夠根據語言指令完成動態環境中的路徑規劃與實時調整。

在操作控制方面，Qwen-RobotManip通過標準化狀態-動作空間和末端執行器增量位姿計算，構建了視覺語言與機械臂控制的橋梁。基于超過38,100小時的開源數據語料庫，該模型支持多機型訓練，能夠準確理解"抓取左側杯子"或"調整工具角度"等復雜操作指令。

Qwen-RobotWorld則開創性地引入自然語言動作接口，將視覺語言能力擴展至世界動態預測。該模型突破單一場景限制，可同時處理操作、駕駛和導航場景下的物理規律預測，例如通過語言描述就能模擬"推倒積木后其他物體的運動軌跡"等復雜物理現象。

三大模型均采用語言優先接口設計，可與通用大模型無縫對接組成物理智能體系統。實際測試中，Qwen團隊已驗證該系統能完成從語言理解到物理任務執行的完整閉環，包括實時任務分解、多步驟推理和自主糾錯能力。例如當機器人執行"將紅色方塊移到藍色區域"任務時，若途中遇到障礙物，系統會自動重新規劃路徑并調整操作策略。

更多>同類內容