小米技術團隊近日宣布,正式推出創新型一步式潛空間語言視覺推理框架——Xiaomi OneVL,并同步將模型權重、訓練及推理代碼向全球開發者全面開源。這一成果標志著小米在多模態人工智能領域邁出關鍵一步,為行業技術融合提供了全新范式。
據研發團隊介紹,Xiaomi OneVL創新性地將視覺語言動作(VLA)、世界模型構建與潛空間推理三大技術路徑整合于統一框架。通過潛空間推理技術,該模型突破了傳統架構的模塊化限制,在復雜場景理解與動態決策能力上實現顯著提升。這一突破距離小米3月發布XLA認知大模型架構僅隔兩個月,展現出公司持續加速技術迭代的研發實力。
小米董事長雷軍在社交平臺表示,開源策略旨在構建開放協作的研發生態。目前測試數據顯示,Xiaomi OneVL在多模態推理、路徑規劃等核心基準測試中,均達到行業領先水平,特別是在處理模糊指令與動態環境交互時,展現出更強的魯棒性。全球開發者現已可通過開源社區獲取完整技術文檔,參與模型優化與應用場景拓展。
行業分析指出,該框架的開源將推動自動駕駛、機器人控制等領域的技術演進。其統一的架構設計降低了多模態系統開發門檻,為學術界與產業界提供了可復用的技術底座。隨著全球開發者社區的參與,Xiaomi OneVL有望催生更多創新應用,加速人工智能技術向實體經濟的滲透。















