VLA未亡待新生：世界模型成關鍵，數據工廠之戰決定具身智能未來

發布時間：2026-06-02 15:15 來源：快訊作者：王婷

在具身智能領域，曾經備受追捧的VLA（視覺-語言-動作模型）技術正經歷著前所未有的質疑與反思。曾經，行業對VLA寄予厚望，Covariant的RFM-1亮相時，媒體紛紛將其與“通用機器人奇點”聯系起來；谷歌DeepMind的RT-2論文發布后，二級市場分析師們甚至將具身智能的商業化時間表大幅提前。然而，如今卻鮮有人再提及“奇點”，大家更關心的是VLA能否在工廠中精準地將螺絲擰進孔里，而不是把螺絲刀誤插入電機。

VLA的困境源于其內在的基因缺陷。當前主流的VLA架構，無論是谷歌的RT-2還是國內一些公司的方案，都遵循相似的邏輯：先利用互聯網上的海量圖文數據，將視覺和語言進行對齊，使模型能夠理解圖像和人類語言；接著接入機器人的動作數據，進行端到端的微調，讓模型能夠輸出動作指令。這種方法的最大優勢在于“省錢”，試圖復用大語言模型和視覺-語言模型的基礎設施，將機器人學習轉化為一個“輕量化”的微調任務，吸引了眾多投資人的關注，因為他們無需從零開始收集昂貴的物理世界交互數據。

然而，互聯網數據存在嚴重局限。它只能教會模型“蘋果是紅色的圓形物體”，卻無法讓模型理解“蘋果被施加10牛頓的力會發生形變并可能滾開”。互聯網上的視頻經過剪輯，充滿了光滑的轉場和因果關系的大幅跳躍。例如，一個杯子從桌面邊緣掉落，下一個鏡頭往往是它已經在地板上摔碎或被接住，而決定命運的瞬間，如杯子在指尖打滑、摩擦系數不足、傾斜角度過大等細節卻永遠缺失。因此，VLA學到的物理知識是一種基于表面關聯的“偽物理”，在面對全新的物體組合或需要精細力控的場景時，泛化能力急劇下降。谷歌DeepMind的RT-2論文和Physical Intelligence的論文都證實了這一點，即使擴大模型規模、灌入更多網絡圖片，對物理交互的預測能力也幾乎沒有提升，該領域的scaling law在物理交互維度上遭遇了瓶頸。

如今的VLA演示就像一場精心排練的魔術，只能在實驗室的有限區域內，使用固定的道具，在嚴格控制的光照和背景下，讓機器人流暢地抓取物品。一旦背景稍有改變，或者放入反光、透明的物體，模型的局限性就會暴露無遺，它只知道答案，卻不知道過程。

在這樣的背景下，“世界模型”成為了具身智能領域的新希望。雖然“世界模型”這個詞熱度頗高，但真正理解并有效應用它的人并不多。一些團隊的做法簡單粗暴，在VLA的輸出端套殼一個現成的物理仿真引擎，用來“修正”違背物理常識的動作，但這只是給爛代碼打補丁，并非真正的融合。

真正的融合要求世界模型成為VLA的“潛意識”和“直覺模塊”，在VLA做出決策之前，就能在內部快速推演接下來幾秒的物理變化，并反過來約束和指導動作的生成。就像人類接拋過來的鑰匙時，大腦不會先規劃好手指的精確軌跡，而是依靠內化的模型，直接驅動肌肉記憶，本能地調整身體姿態。李飛飛團隊的RoboAgent工作以及一些新嘗試正朝著這個方向努力，他們讓模型在學習動作的同時，預測下一幀的深度圖、物體分割圖甚至接觸力的分布，迫使模型從二維像素的關聯中抽離出來，建構一個內部的、三維的、有因果的物理表征。當模型能準確預測物體的動力學特性時，抓取動作才會更加精準和自然。

在討論VLA和世界模型的同時，不能忽視一個最底層、最關鍵的因素——數據。一位頭部人形機器人公司負責數據采集的人員透露，他們目前最頭疼的不是算法調參，而是如何讓遠程遙操作的標注員保持專注。為了采集高質量的操作數據，他們請來退休的老工程師，戴著手套一整天重復擰一個零件，但老人家的手會抖，精細動作的遙操作映射總是出問題，采集一天的數據，經過清洗和對齊后，真正能喂給模型的不到10%。而且，要讓VLA + 世界模型學會泡一杯咖啡，需要知道水壺的重量變化、蒸汽的溫度分布、水流的沖擊力、茶杯的材質等數據，這些數據互聯網圖文數據庫無法提供。

因此，具身智能領域正展開一場前所未有的數據工廠戰爭。特斯拉的Optimus團隊備受關注，除了馬斯克的明星光環，更重要的是他們正在將汽車自動駕駛的“影子模式”和數據引擎體系遷移到機器人上。Optimus在工廠里擰螺絲的每一次成功和失敗都會被自動標注、回流、迭代訓練，形成一個自我造血的數據飛輪。相比之下，國內多數機器人公司仍采用“堆人”的古老模式，租場地、請人做遙操作，數據質量參差不齊，采集成本居高不下。這導致VLA + 世界模型技術路線雖會成為共識，但真正的技術壁壘將迅速從模型架構轉移到數據工廠的規模和效率上。

未來的競爭將呈現分層級態勢。最高層級是能構建“物理世界基礎模型”的公司，如OpenAI、谷歌DeepMind、英偉達等，它們提供能理解基本物理規律的VLA基座；中間層級是擁有高效、海量且多樣私有數據工廠的機器人公司，它們利用自己場景里的“私域數據”在基座模型上進行深度微調，形成特定領域的超級專家模型；而沒有高效數據工廠的公司，可能會淪為基礎模型廠商的分銷商，或者只能在技術要求不高的巡檢、導引場景中競爭。Physical Intelligence這家由頂尖學術大佬創立的明星公司，今年以來瘋狂與各種制造業、物流企業簽合作協議，他們看中的正是這些場景里最真實、最復雜的物理交互數據。就像Uber的崛起靠的不是算法，而是私家車帶來的數據壟斷一樣，具身智能領域的數據競爭也將決定未來的格局。

更多>同類內容