黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

小米發(fā)布開源Xiaomi-Robotics-0大模型 破解推理延遲痛點(diǎn)推動(dòng)具身智能發(fā)展

   時(shí)間:2026-02-12 16:42 來源:快訊作者:馮璃月

小米公司近日宣布,正式推出并開源其首款機(jī)器人視覺語言動(dòng)作(VLA)大模型Xiaomi-Robotics-0,標(biāo)志著具身智能領(lǐng)域迎來重要技術(shù)突破。該模型以47億參數(shù)規(guī)模實(shí)現(xiàn)視覺語言理解與實(shí)時(shí)動(dòng)作執(zhí)行的深度融合,突破了傳統(tǒng)VLA模型因推理延遲導(dǎo)致的物理世界交互瓶頸,在消費(fèi)級硬件上即可完成高效推理,多項(xiàng)性能指標(biāo)刷新行業(yè)紀(jì)錄。

傳統(tǒng)VLA模型雖具備強(qiáng)大的泛化能力,但高延遲問題嚴(yán)重制約了機(jī)器人在動(dòng)態(tài)環(huán)境中的響應(yīng)速度。小米研發(fā)團(tuán)隊(duì)通過架構(gòu)創(chuàng)新破解這一難題,采用"大腦+小腦"雙核心設(shè)計(jì):以多模態(tài)視覺語言模型(VLM)構(gòu)建認(rèn)知中樞,可解析人類模糊指令并識(shí)別復(fù)雜空間關(guān)系;通過多層擴(kuò)散變換器(DiT)搭建動(dòng)作執(zhí)行模塊,利用"動(dòng)作塊"生成技術(shù)與流匹配算法,確保機(jī)器人動(dòng)作的精準(zhǔn)性與高頻性。這種混合架構(gòu)使模型在保持認(rèn)知能力的同時(shí),將物理交互延遲降低至行業(yè)領(lǐng)先水平。

在訓(xùn)練體系方面,小米獨(dú)創(chuàng)跨模態(tài)兩階段訓(xùn)練法。預(yù)訓(xùn)練階段通過動(dòng)作提議機(jī)制實(shí)現(xiàn)視覺特征與動(dòng)作空間的深度對齊,在凍結(jié)VLM參數(shù)的前提下專項(xiàng)優(yōu)化DiT模塊,使模型同時(shí)掌握物體識(shí)別、邏輯推理與操作技能。后訓(xùn)練階段引入異步推理框架,結(jié)合清潔動(dòng)作前綴與Λ型注意力掩碼技術(shù),有效解決真實(shí)機(jī)器人執(zhí)行中的動(dòng)作斷層問題,既保證運(yùn)動(dòng)軌跡的連續(xù)性,又強(qiáng)化了對實(shí)時(shí)視覺反饋的響應(yīng)能力。

為推動(dòng)技術(shù)生態(tài)建設(shè),小米已全面開源Xiaomi-Robotics-0的技術(shù)文檔、訓(xùn)練代碼及模型權(quán)重,提供完整的開發(fā)工具鏈支持。與此同時(shí),小米機(jī)器人團(tuán)隊(duì)正式啟動(dòng)全球人才招募計(jì)劃,面向計(jì)算機(jī)視覺、強(qiáng)化學(xué)習(xí)、機(jī)器人控制等領(lǐng)域?qū)<遥餐剿魑锢碇悄艿那把剡吔?。此次開源不僅為學(xué)術(shù)界提供重要研究基準(zhǔn),更為工業(yè)界落地具身智能應(yīng)用開辟了新路徑。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群