在拉斯維加斯舉辦的CES展會上,英偉達創始人兼CEO黃仁勛宣布,AI技術正式邁入物理世界的新階段。他指出,AI的演進經歷了感知、生成、智能體和物理四個階段,而真正讓AI走出屏幕的關鍵,在于理解質量、摩擦、慣性等物理特性。黃仁勛強調,機器人等物理設備需要的不只是單一模型,而是一套完整的智能系統。
隨著AI技術向物理世界滲透,機器人、無人機、安防攝像頭和可穿戴設備等場景對AI的需求發生了根本性變化。這些設備不再滿足于簡單的問答交互,而是需要具備持續工作、主動執行任務的能力。業內專家指出,通用視覺智能將成為物理AI規模化應用的核心技術,其重要性甚至超過了一些表演性場景。
通用視覺智能要求模型能夠像人類一樣持續觀察環境、精準定位目標并自主驅動行動,且所有處理必須在端側完成。近日發布的VLX端側流式多模態模型系列,正是這一技術路徑的最新成果。該系列首次提出"流式多模態"架構,突破了傳統模型"采集-上傳-離線處理"的模式,實現了對持續視頻流的毫秒級實時感知,并在端側完成了從感知到決策的完整閉環。
VLX系列包含三個核心模型:Flow、Seek和Go,分別對應持續感知、精準定位和行動輸出三層能力。Flow模型采用流式視頻輸入架構,可自主不間斷運行,無需人工觸發;Seek模型通過區域指代機制實現毫米級空間定位,解決了傳統模型只能描述畫面內容卻無法輸出精確坐標的問題;Go模型則能直接輸出設備可調用的導航航點,支撐機器人自主移動。
基準測試數據顯示,VLX系列在多項指標上超越了主流大模型。Seek-3B在目標檢測、復雜語義理解等任務中,以30億參數實現了與Gemini 3.1 Pro和GPT-5相當的精度;Go(0.6B)在機器人導航任務中,以極小參數量實現了85.42%的高成功率,跟蹤率達94.08%,顯著領先于參數量大13倍的對比模型。端側推理延遲僅0.1秒,較云端推理的5秒以上有了質的提升。
這種性能突破源于架構層面的創新。傳統模型依賴長上下文處理視頻輸入,本質仍是離線模式。VLX則構建了持續運轉的"視覺中樞",視頻流像水一樣流入模型,形成不間斷的感知流。技術團隊針對端側算力約束進行了專門優化:Flow采用Linear Attention機制防止顯存溢出;Seek通過區域指代降低計算量;Go使用短時航點預測實現快速響應。
VLX系列已在實際場景中實現大規模落地。在具身智能領域,該模型支持云深處、宇樹等企業的機器人平臺,顯著縮短了算法遷移周期;無人機搭載VLX后,可自主完成巡檢、避障和航線規劃,效率提升數倍;在可穿戴設備方面,好馬APP已服務近10萬視障用戶,通過AI助視眼鏡實現安全避障和空間導航。VLX還完成了與蘋果、聯想、惠普、英偉達等品牌的端側適配,為PC設備注入實時視覺理解能力。
針對國產芯片算力受限的問題,VLX通過專門優化實現了在華為昇騰、地瓜、RK3588等平臺上的流暢運行。這種從端側需求出發的設計思路,使部署成本大幅降低,實時響應能力提升數十倍,為物理AI的普及提供了可行路徑。目前,VLX系列模型已向開發者開放體驗平臺,進一步降低了端側智能應用的研發門檻。















