阿里Qwen-VLA入局具身智能：統(tǒng)一基座破局碎片化

發(fā)布時間：2026-06-04 15:42 來源：快訊作者：顧青青

人工智能領(lǐng)域正經(jīng)歷一場深刻變革，從虛擬世界的文本生成邁向物理世界的自主操作。具身智能（Embodied AI）作為這一趨勢的核心方向，正吸引全球科技企業(yè)的激烈競爭。阿里巴巴旗下通義千問團(tuán)隊(duì)推出的Qwen-VLA模型，憑借其獨(dú)特的"大腦-小腦"架構(gòu)與四階段訓(xùn)練法，成為該領(lǐng)域的重要突破。

當(dāng)前機(jī)器人行業(yè)面臨嚴(yán)重碎片化困境：家用機(jī)器人僅能完成疊衣服等單一任務(wù)，工業(yè)機(jī)器人局限于物品分類，不同品牌設(shè)備需要定制化算法支持。這種"專機(jī)專用"模式導(dǎo)致研發(fā)成本居高不下，與通用人工智能（AGI）理念背道而馳。Qwen-VLA試圖通過統(tǒng)一數(shù)學(xué)框架解決這一難題，將機(jī)械臂抓取、雙臂協(xié)同等操作抽象為"視覺觀察-語言指令-動作預(yù)測"的通用問題，實(shí)現(xiàn)軟件跨硬件平臺的復(fù)用。

該模型的技術(shù)路線融合了VLA策略模型、擴(kuò)散動作生成與仿真強(qiáng)化學(xué)習(xí)。其架構(gòu)設(shè)計(jì)借鑒人類神經(jīng)系統(tǒng)：以Qwen3.5多模態(tài)模型作為認(rèn)知中樞，負(fù)責(zé)理解環(huán)境與語言指令；11.5億參數(shù)的擴(kuò)散動作解碼器則模擬小腦功能，生成平滑連續(xù)的關(guān)節(jié)軌跡。這種設(shè)計(jì)使模型能直接輸出物理參數(shù)而非預(yù)測畫面，在動態(tài)場景中展現(xiàn)出顯著優(yōu)勢。

訓(xùn)練體系包含四個關(guān)鍵階段：首先通過文本指令建立動作先驗(yàn)，繼而進(jìn)行多模態(tài)對齊訓(xùn)練，然后通過人類操作錄像實(shí)現(xiàn)模仿學(xué)習(xí)，最終在虛擬環(huán)境中完成強(qiáng)化學(xué)習(xí)。這種漸進(jìn)式訓(xùn)練使模型能處理未見過物體的抓取任務(wù)——即使測試時出現(xiàn)玩具鴨、墨鏡等訓(xùn)練中未涉及的物品，仍能根據(jù)指令準(zhǔn)確操作。在動態(tài)場景測試中，模型甚至能實(shí)時調(diào)整軌跡攔截移動物體，表現(xiàn)超越多數(shù)專用模型。

數(shù)據(jù)構(gòu)建是該模型的核心競爭力。其訓(xùn)練集包含74.2%的真實(shí)機(jī)器人遙操作數(shù)據(jù)、6%的人類第一視角視頻、3.7%的合成仿真數(shù)據(jù)及8.5%的圖文常識數(shù)據(jù)。阿里通過內(nèi)部收集超1000小時真實(shí)操作軌跡，結(jié)合800萬條自動生成的物理碰撞數(shù)據(jù)，構(gòu)建起覆蓋長尾場景的數(shù)據(jù)體系。這種數(shù)據(jù)組合既保證了操作真實(shí)性，又通過仿真技術(shù)降低了成本。

盡管在動態(tài)操控評測中表現(xiàn)優(yōu)異，Qwen-VLA仍面臨多重挑戰(zhàn)：物理動作數(shù)據(jù)規(guī)模遠(yuǎn)不及文本數(shù)據(jù)，多任務(wù)優(yōu)化可能導(dǎo)致視覺性能衰退，缺乏觸覺反饋限制復(fù)雜操作，長程任務(wù)規(guī)劃能力有待提升。這些瓶頸反映出具身智能從實(shí)驗(yàn)室到實(shí)際應(yīng)用的巨大跨越，需要解決傳感器融合、持續(xù)學(xué)習(xí)等基礎(chǔ)性問題。

阿里此次探索證明，通過統(tǒng)一基座模型收斂物理控制碎片化的路徑具有可行性。當(dāng)算法開始感知重力、摩擦力等物理約束，人工智能才真正踏上改造現(xiàn)實(shí)世界的征程。這場變革不僅需要技術(shù)創(chuàng)新，更考驗(yàn)企業(yè)對工程化難題的破解能力，而Qwen-VLA的推出無疑為行業(yè)提供了重要參考。

更多>同類內(nèi)容