99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

阿里Qwen-VLA入局具身智能:統(tǒng)一基座破局碎片化

   發(fā)布時間:2026-06-04 15:42 作者:顧青青

人工智能領(lǐng)域正經(jīng)歷一場深刻變革,從虛擬世界的文本生成邁向物理世界的自主操作。具身智能(Embodied AI)作為這一趨勢的核心方向,正吸引全球科技企業(yè)的激烈競爭。阿里巴巴旗下通義千問團(tuán)隊(duì)推出的Qwen-VLA模型,憑借其獨(dú)特的"大腦-小腦"架構(gòu)與四階段訓(xùn)練法,成為該領(lǐng)域的重要突破。

當(dāng)前機(jī)器人行業(yè)面臨嚴(yán)重碎片化困境:家用機(jī)器人僅能完成疊衣服等單一任務(wù),工業(yè)機(jī)器人局限于物品分類,不同品牌設(shè)備需要定制化算法支持。這種"專機(jī)專用"模式導(dǎo)致研發(fā)成本居高不下,與通用人工智能(AGI)理念背道而馳。Qwen-VLA試圖通過統(tǒng)一數(shù)學(xué)框架解決這一難題,將機(jī)械臂抓取、雙臂協(xié)同等操作抽象為"視覺觀察-語言指令-動作預(yù)測"的通用問題,實(shí)現(xiàn)軟件跨硬件平臺的復(fù)用。

該模型的技術(shù)路線融合了VLA策略模型、擴(kuò)散動作生成與仿真強(qiáng)化學(xué)習(xí)。其架構(gòu)設(shè)計(jì)借鑒人類神經(jīng)系統(tǒng):以Qwen3.5多模態(tài)模型作為認(rèn)知中樞,負(fù)責(zé)理解環(huán)境與語言指令;11.5億參數(shù)的擴(kuò)散動作解碼器則模擬小腦功能,生成平滑連續(xù)的關(guān)節(jié)軌跡。這種設(shè)計(jì)使模型能直接輸出物理參數(shù)而非預(yù)測畫面,在動態(tài)場景中展現(xiàn)出顯著優(yōu)勢。

訓(xùn)練體系包含四個關(guān)鍵階段:首先通過文本指令建立動作先驗(yàn),繼而進(jìn)行多模態(tài)對齊訓(xùn)練,然后通過人類操作錄像實(shí)現(xiàn)模仿學(xué)習(xí),最終在虛擬環(huán)境中完成強(qiáng)化學(xué)習(xí)。這種漸進(jìn)式訓(xùn)練使模型能處理未見過物體的抓取任務(wù)——即使測試時出現(xiàn)玩具鴨、墨鏡等訓(xùn)練中未涉及的物品,仍能根據(jù)指令準(zhǔn)確操作。在動態(tài)場景測試中,模型甚至能實(shí)時調(diào)整軌跡攔截移動物體,表現(xiàn)超越多數(shù)專用模型。

數(shù)據(jù)構(gòu)建是該模型的核心競爭力。其訓(xùn)練集包含74.2%的真實(shí)機(jī)器人遙操作數(shù)據(jù)、6%的人類第一視角視頻、3.7%的合成仿真數(shù)據(jù)及8.5%的圖文常識數(shù)據(jù)。阿里通過內(nèi)部收集超1000小時真實(shí)操作軌跡,結(jié)合800萬條自動生成的物理碰撞數(shù)據(jù),構(gòu)建起覆蓋長尾場景的數(shù)據(jù)體系。這種數(shù)據(jù)組合既保證了操作真實(shí)性,又通過仿真技術(shù)降低了成本。

盡管在動態(tài)操控評測中表現(xiàn)優(yōu)異,Qwen-VLA仍面臨多重挑戰(zhàn):物理動作數(shù)據(jù)規(guī)模遠(yuǎn)不及文本數(shù)據(jù),多任務(wù)優(yōu)化可能導(dǎo)致視覺性能衰退,缺乏觸覺反饋限制復(fù)雜操作,長程任務(wù)規(guī)劃能力有待提升。這些瓶頸反映出具身智能從實(shí)驗(yàn)室到實(shí)際應(yīng)用的巨大跨越,需要解決傳感器融合、持續(xù)學(xué)習(xí)等基礎(chǔ)性問題。

阿里此次探索證明,通過統(tǒng)一基座模型收斂物理控制碎片化的路徑具有可行性。當(dāng)算法開始感知重力、摩擦力等物理約束,人工智能才真正踏上改造現(xiàn)實(shí)世界的征程。這場變革不僅需要技術(shù)創(chuàng)新,更考驗(yàn)企業(yè)對工程化難題的破解能力,而Qwen-VLA的推出無疑為行業(yè)提供了重要參考。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新