黃仁勛預言成真！中國公司“流式多模態”開啟物理AI量產新時代

發布時間：2026-07-02 19:45 來源：快訊作者：蘇婉清

在拉斯維加斯舉辦的CES展會上，英偉達創始人兼CEO黃仁勛宣布，AI技術正式邁入物理世界的新階段。他指出，AI的演進經歷了感知、生成、智能體和物理四個階段，而真正讓AI走出屏幕的關鍵，在于理解質量、摩擦、慣性等物理特性。黃仁勛強調，機器人等物理設備需要的不只是單一模型，而是一套完整的智能系統。

隨著AI技術向物理世界滲透，機器人、無人機、安防攝像頭和可穿戴設備等場景對AI的需求發生了根本性變化。這些設備不再滿足于簡單的問答交互，而是需要具備持續工作、主動執行任務的能力。業內專家指出，通用視覺智能將成為物理AI規模化應用的核心技術，其重要性甚至超過了一些表演性場景。

通用視覺智能要求模型能夠像人類一樣持續觀察環境、精準定位目標并自主驅動行動，且所有處理必須在端側完成。近日發布的VLX端側流式多模態模型系列，正是這一技術路徑的最新成果。該系列首次提出"流式多模態"架構，突破了傳統模型"采集-上傳-離線處理"的模式，實現了對持續視頻流的毫秒級實時感知，并在端側完成了從感知到決策的完整閉環。

VLX系列包含三個核心模型：Flow、Seek和Go，分別對應持續感知、精準定位和行動輸出三層能力。Flow模型采用流式視頻輸入架構，可自主不間斷運行，無需人工觸發；Seek模型通過區域指代機制實現毫米級空間定位，解決了傳統模型只能描述畫面內容卻無法輸出精確坐標的問題；Go模型則能直接輸出設備可調用的導航航點，支撐機器人自主移動。

基準測試數據顯示，VLX系列在多項指標上超越了主流大模型。Seek-3B在目標檢測、復雜語義理解等任務中，以30億參數實現了與Gemini 3.1 Pro和GPT-5相當的精度；Go（0.6B）在機器人導航任務中，以極小參數量實現了85.42%的高成功率，跟蹤率達94.08%，顯著領先于參數量大13倍的對比模型。端側推理延遲僅0.1秒，較云端推理的5秒以上有了質的提升。

這種性能突破源于架構層面的創新。傳統模型依賴長上下文處理視頻輸入，本質仍是離線模式。VLX則構建了持續運轉的"視覺中樞"，視頻流像水一樣流入模型，形成不間斷的感知流。技術團隊針對端側算力約束進行了專門優化：Flow采用Linear Attention機制防止顯存溢出；Seek通過區域指代降低計算量；Go使用短時航點預測實現快速響應。

VLX系列已在實際場景中實現大規模落地。在具身智能領域，該模型支持云深處、宇樹等企業的機器人平臺，顯著縮短了算法遷移周期；無人機搭載VLX后，可自主完成巡檢、避障和航線規劃，效率提升數倍；在可穿戴設備方面，好馬APP已服務近10萬視障用戶，通過AI助視眼鏡實現安全避障和空間導航。VLX還完成了與蘋果、聯想、惠普、英偉達等品牌的端側適配，為PC設備注入實時視覺理解能力。

針對國產芯片算力受限的問題，VLX通過專門優化實現了在華為昇騰、地瓜、RK3588等平臺上的流暢運行。這種從端側需求出發的設計思路，使部署成本大幅降低，實時響應能力提升數十倍，為物理AI的普及提供了可行路徑。目前，VLX系列模型已向開發者開放體驗平臺，進一步降低了端側智能應用的研發門檻。

更多>同類內容