99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動(dòng)中國(guó)媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

檢索增強(qiáng)新突破:為機(jī)器人裝上“三維空間導(dǎo)航儀” 提升操作精準(zhǔn)度

   發(fā)布時(shí)間:2026-04-30 15:10 作者:楊凌霄

在機(jī)器人技術(shù)領(lǐng)域,以GPT、Gemini為代表的視覺語(yǔ)言大模型(VLM)已展現(xiàn)出強(qiáng)大的語(yǔ)言理解與場(chǎng)景推理能力,但在將指令轉(zhuǎn)化為實(shí)際物理操作時(shí)仍面臨關(guān)鍵挑戰(zhàn)。這類模型雖能解析人類語(yǔ)言指令,卻難以精準(zhǔn)把握三維空間中的物體位置、朝向及可操作關(guān)系,導(dǎo)致生成的規(guī)劃方案常因忽視物理約束而無(wú)法執(zhí)行。如何讓機(jī)器人獲得可遷移的三維空間知識(shí),成為具身智能研究的核心突破點(diǎn)。

近期發(fā)表于《科學(xué)·機(jī)器人學(xué)》的一項(xiàng)研究提出了名為RAM(Retrieval-Augmented Manipulation)的創(chuàng)新框架,通過(guò)構(gòu)建可檢索的"三維物體知識(shí)庫(kù)"為VLM補(bǔ)充空間認(rèn)知能力。該框架不依賴重新訓(xùn)練模型,而是在任務(wù)規(guī)劃階段提供精細(xì)化的空間上下文,使機(jī)器人既能理解"要做什么",更能明確"如何操作"。研究團(tuán)隊(duì)以香港中文大學(xué)為主導(dǎo),通過(guò)14項(xiàng)真實(shí)機(jī)械臂實(shí)驗(yàn)驗(yàn)證了其有效性。

傳統(tǒng)VLM的局限性源于其訓(xùn)練范式——多數(shù)模型基于二維圖像與文本配對(duì)數(shù)據(jù)構(gòu)建,雖擅長(zhǎng)識(shí)別視覺內(nèi)容,卻缺乏對(duì)深度、尺度及物理交互的直接經(jīng)驗(yàn)。盡管業(yè)界嘗試通過(guò)三維數(shù)據(jù)微調(diào)提升能力,但高質(zhì)量3D數(shù)據(jù)的采集與標(biāo)注成本高昂,計(jì)算資源消耗巨大。RAM框架另辟蹊徑,將空間知識(shí)存儲(chǔ)于外部知識(shí)庫(kù),通過(guò)實(shí)時(shí)檢索為模型提供場(chǎng)景適配的空間信息。

該框架包含三大核心模塊:首先是物體類別級(jí)知識(shí)引擎,研究團(tuán)隊(duì)為不同物體類別建立標(biāo)準(zhǔn)化三維模板,標(biāo)注幾何屬性(如尺寸、對(duì)稱性)與操作屬性(如抓取點(diǎn)、功能平面)。這種類別級(jí)建模方式可覆蓋同類物體的多種變體,顯著降低數(shù)據(jù)需求。其次是三維視覺接地模型,其功能是將模板中的通用空間描述映射到真實(shí)場(chǎng)景中的具體物體實(shí)例。該模塊通過(guò)合成數(shù)據(jù)訓(xùn)練,在真實(shí)實(shí)驗(yàn)中展現(xiàn)出對(duì)未見物體的泛化能力。最后是檢索增強(qiáng)任務(wù)規(guī)劃器,它將空間信息轉(zhuǎn)化為結(jié)構(gòu)化文本輸入VLM,使模型能生成包含抓取點(diǎn)選擇、平面對(duì)齊方向等細(xì)粒度約束的操作規(guī)劃,再通過(guò)軌跡優(yōu)化轉(zhuǎn)化為機(jī)器人可執(zhí)行的動(dòng)作。

實(shí)驗(yàn)環(huán)節(jié)覆蓋了31個(gè)物體實(shí)例與11個(gè)物體類別,包含單物體單步驟、多物體單步驟及多物體多步驟三類語(yǔ)言指令驅(qū)動(dòng)任務(wù)。在120次重復(fù)測(cè)試中,RAM框架取得89.17%的平均成功率,其中最復(fù)雜的多物體多步驟任務(wù)成功率達(dá)80%。研究還測(cè)試了圖像引導(dǎo)操作能力,機(jī)器人僅需參考目標(biāo)擺放圖即可理解物體相對(duì)位置與朝向。在餐具擺放任務(wù)中,常規(guī)平面場(chǎng)景成功率達(dá)92%,復(fù)雜高低平面場(chǎng)景成功率仍保持72%,突破了傳統(tǒng)方法對(duì)俯視參考圖的依賴。

針對(duì)需要空間推理的自主決策任務(wù),RAM框架展現(xiàn)出顯著優(yōu)勢(shì)。在清理桌面場(chǎng)景中,機(jī)器人需根據(jù)桌面高度、垃圾桶尺寸及物體位置選擇清掃方案。當(dāng)直接清掃不可行時(shí),系統(tǒng)能規(guī)劃借助簸箕的間接方案,平均成功率達(dá)65%。這表明通過(guò)顯式獲取空間約束,機(jī)器人可排除物理上不可行的語(yǔ)義方案,選擇更可靠的操作策略。

研究團(tuán)隊(duì)進(jìn)一步探索了框架在非剛體物體操作中的擴(kuò)展性。對(duì)于筆記本電腦、抽屜等鉸接物體,采用多模板匹配策略預(yù)設(shè)不同開合狀態(tài),通過(guò)觀測(cè)結(jié)果匹配最接近模板以估計(jì)旋轉(zhuǎn)軸或推動(dòng)方向。在柔性物體操作方面,以疊衣服任務(wù)為例,將折疊過(guò)程拆解為展開、疊袖等階段,并為各狀態(tài)匹配相應(yīng)模板。實(shí)驗(yàn)還初步結(jié)合觸覺傳感器,當(dāng)抓取過(guò)程中物體因重心偏移發(fā)生滑動(dòng)時(shí),系統(tǒng)可利用觸覺反饋重新規(guī)劃抓取姿勢(shì)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新