Qwen團隊近日宣布推出一套全新的機器人套件,包含Qwen-RobotNav、Qwen-RobotManip與Qwen-RobotWorld三大基礎模型。這一創新成果標志著語言與物理動作的深度融合邁入新階段,為機器人執行復雜任務提供了更智能的解決方案。
Qwen-RobotNav專注于移動控制領域,通過可控觀測編碼和工具接口技術,將視覺語言能力轉化為精準的移動指令。該模型實現了指令跟隨、點/目標導航、目標追蹤和自動駕駛四類任務的統一處理,使機器人能夠根據語言指令完成動態環境中的路徑規劃與實時調整。
在操作控制方面,Qwen-RobotManip通過標準化狀態-動作空間和末端執行器增量位姿計算,構建了視覺語言與機械臂控制的橋梁。基于超過38,100小時的開源數據語料庫,該模型支持多機型訓練,能夠準確理解"抓取左側杯子"或"調整工具角度"等復雜操作指令。
Qwen-RobotWorld則開創性地引入自然語言動作接口,將視覺語言能力擴展至世界動態預測。該模型突破單一場景限制,可同時處理操作、駕駛和導航場景下的物理規律預測,例如通過語言描述就能模擬"推倒積木后其他物體的運動軌跡"等復雜物理現象。
三大模型均采用語言優先接口設計,可與通用大模型無縫對接組成物理智能體系統。實際測試中,Qwen團隊已驗證該系統能完成從語言理解到物理任務執行的完整閉環,包括實時任務分解、多步驟推理和自主糾錯能力。例如當機器人執行"將紅色方塊移到藍色區域"任務時,若途中遇到障礙物,系統會自動重新規劃路徑并調整操作策略。















