阿里發布Qwen-Robot系列具身智能大模型，為機器人裝“手”配“腳”賦“腦”

發布時間：2026-06-16 21:04 來源：快訊作者：趙磊

阿里巴巴近日正式推出千問具身智能大模型Qwen-Robot系列，涵蓋三大核心模型：VLA操作模型Qwen-RobotManip、VLN移動模型Qwen-RobotNav以及世界模型Qwen-RobotWorld。這一系列模型通過模擬人類肢體協調、空間導航與邏輯推理能力，為機器人賦予了更接近人類的智能水平，標志著具身智能技術邁入新階段。

作為具身智能的基礎框架，VLA（視覺-語言-動作）模型通過整合視覺感知、語言理解與動作決策能力，使機器人具備環境交互能力。然而，傳統VLA模型在跨硬件與跨場景應用中常面臨性能衰減問題。針對這一痛點，Qwen-RobotManip創新性地提出80維統一動作表征體系，將不同形態機器人的操作指令轉化為標準化"肢體語言"。該模型通過構建基礎物理規律與動作邏輯的通用模型，使機器人能夠理解動作背后的物理意義，而非簡單模仿動作軌跡。實驗數據顯示，搭載該模型的機器人可在數次反饋循環內完成硬件適配，顯著提升跨平臺部署效率。

在空間導航領域，Qwen-RobotNav通過整合語言指令導航、目標搜索與自動駕駛等五大任務模塊，構建出統一的多任務處理框架。基于Qwen-VL視覺語言模型的技術底座，該系統能夠自動解析復雜場景中的空間關系，無需人工干預即可在動態環境中完成路徑規劃與任務切換。例如，在同時存在"取快遞"與"避讓行人"的混合指令時，系統可自主協調動作優先級，實現多任務并行處理。

作為系列模型的"認知中樞"，Qwen-RobotWorld突破傳統模型對即時數據的依賴，通過構建物理規律預測引擎，實現對未來狀態的推理模擬。該模型能夠根據當前環境參數與動作指令，預判機器人在下一時刻的合理姿態與位置變化，為動作執行提供前瞻性指導。這種基于物理引擎的推理機制，使機器人在面對未訓練過的場景時，仍能保持較高的決策準確性。

三大模型既可獨立部署于特定場景，也能通過數據接口實現協同運作。當機器人同時接收操作指令與導航任務時，Qwen-RobotManip負責精確控制末端執行器，Qwen-RobotNav規劃最優移動路徑，Qwen-RobotWorld則持續監測環境變化并調整決策參數。這種分層協作架構，使機器人能夠同時處理感知、決策與執行層面的復雜任務，為工業制造、物流配送、家庭服務等領域提供智能化解決方案。

更多>同類內容