黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

小米發(fā)布開源VLA模型Xiaomi-Robotics-0 兼具視覺語(yǔ)言理解與高性能實(shí)時(shí)執(zhí)行能力

   時(shí)間:2026-02-12 16:43 來(lái)源:快訊作者:蘇婉清

小米公司今日正式發(fā)布開源視覺語(yǔ)言動(dòng)作(VLA)模型Xiaomi-Robotics-0,該模型憑借47億參數(shù)規(guī)模,在視覺語(yǔ)言理解與實(shí)時(shí)動(dòng)作執(zhí)行領(lǐng)域?qū)崿F(xiàn)突破性進(jìn)展。通過(guò)創(chuàng)新的"感知-決策-執(zhí)行"閉環(huán)架構(gòu),模型在仿真測(cè)試與真實(shí)機(jī)器人任務(wù)中均展現(xiàn)出卓越性能,尤其在處理復(fù)雜物理交互任務(wù)時(shí)表現(xiàn)出色,現(xiàn)已開放技術(shù)文檔、源代碼及模型權(quán)重供全球開發(fā)者使用。

該模型采用Mixture-of-Transformers(MoT)混合架構(gòu),由視覺語(yǔ)言大腦(VLM)與動(dòng)作執(zhí)行小腦(Action Expert)兩大核心模塊構(gòu)成。VLM模塊基于多模態(tài)大模型構(gòu)建,可精準(zhǔn)解析人類模糊指令(如"整理桌面"),并從高清視覺輸入中提取空間關(guān)系信息;Action Expert模塊則通過(guò)多層Diffusion Transformer(DiT)架構(gòu),創(chuàng)新性采用"動(dòng)作塊"生成機(jī)制,配合流匹配技術(shù)確保動(dòng)作序列的平滑性與精準(zhǔn)度。這種設(shè)計(jì)使模型既能理解復(fù)雜語(yǔ)義,又能實(shí)現(xiàn)高頻動(dòng)作控制。

針對(duì)傳統(tǒng)VLA模型在動(dòng)作學(xué)習(xí)過(guò)程中容易喪失理解能力的問(wèn)題,研發(fā)團(tuán)隊(duì)提出混合訓(xùn)練策略:在預(yù)訓(xùn)練階段同步輸入多模態(tài)數(shù)據(jù)與動(dòng)作數(shù)據(jù),使模型在掌握操作技能的同時(shí),保持物體檢測(cè)、視覺問(wèn)答等認(rèn)知能力。具體訓(xùn)練流程分為三個(gè)階段:首先通過(guò)Action Proposal機(jī)制強(qiáng)制VLM預(yù)測(cè)動(dòng)作分布,實(shí)現(xiàn)特征空間與動(dòng)作空間的對(duì)齊;隨后凍結(jié)VLM參數(shù),專項(xiàng)訓(xùn)練DiT模塊學(xué)習(xí)從噪聲中恢復(fù)精準(zhǔn)動(dòng)作序列;最后通過(guò)目標(biāo)任務(wù)后訓(xùn)練優(yōu)化整體性能。

為解決推理延遲導(dǎo)致的動(dòng)作斷層問(wèn)題,團(tuán)隊(duì)開發(fā)異步推理模式,使模型推理與機(jī)器人運(yùn)行解耦,通過(guò)Clean Action Prefix機(jī)制將前序動(dòng)作作為輸入,確保動(dòng)作軌跡的時(shí)間連續(xù)性。同時(shí)引入Λ-shape Attention Mask特殊注意力掩碼,強(qiáng)制模型優(yōu)先處理當(dāng)前視覺反饋,有效抑制歷史慣性影響,使機(jī)器人在環(huán)境突變時(shí)能快速調(diào)整動(dòng)作策略。這些技術(shù)創(chuàng)新使模型在消費(fèi)級(jí)顯卡上即可實(shí)現(xiàn)實(shí)時(shí)推理,動(dòng)作響應(yīng)延遲降低60%以上。

在性能驗(yàn)證方面,Xiaomi-Robotics-0在LIBERO、CALVIN和SimplerEnv三大仿真基準(zhǔn)測(cè)試中,包攬全部30項(xiàng)評(píng)測(cè)指標(biāo)的第一名,刷新多項(xiàng)SOTA紀(jì)錄。真實(shí)場(chǎng)景測(cè)試中,搭載該模型的雙臂機(jī)器人在積木拆解與毛巾折疊任務(wù)中,展現(xiàn)出卓越的手眼協(xié)調(diào)能力,能精準(zhǔn)處理剛性物體與柔性織物的物理特性差異。特別在多模態(tài)理解測(cè)試中,模型在具身交互相關(guān)基準(zhǔn)上的表現(xiàn)顯著優(yōu)于同類模型,驗(yàn)證了其視覺語(yǔ)言理解與動(dòng)作控制的協(xié)同優(yōu)化效果。

目前,小米已通過(guò)GitHub與Hugging Face平臺(tái)開放模型資源,包括完整技術(shù)文檔、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重。開發(fā)者可訪問(wèn)https://xiaomi-robotics-0.github.io獲取詳細(xì)資料,或通過(guò)https://github.com/XiaomiRobotics/Xiaomi-Robotics-0直接參與項(xiàng)目開發(fā)。此次開源將推動(dòng)具身智能技術(shù)在機(jī)器人、智能制造等領(lǐng)域的落地應(yīng)用,為全球研究者提供高性能的基礎(chǔ)模型框架。

 
 
更多>同類內(nèi)容
推薦圖文
百萬(wàn)級(jí)超跑:科技與奢華交織,性能巔峰與極致享受的完美融合 15萬(wàn)預(yù)算家用轎車怎么選?三款高顏值強(qiáng)實(shí)力車型幫你輕松做決定
長(zhǎng)安馬自達(dá)EZ-60智能化升級(jí):自定義泊車+應(yīng)用煥新,暢享智慧出行新體驗(yàn) 豆包大模型2.0等2月14日升級(jí)發(fā)布 基礎(chǔ)及創(chuàng)作能力將迎重大突破
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群