檢索增強(qiáng)新突破：為機(jī)器人裝上“三維空間導(dǎo)航儀” 提升操作精準(zhǔn)度-企業(yè)快訊-媒體界

檢索增強(qiáng)新突破：為機(jī)器人裝上“三維空間導(dǎo)航儀” 提升操作精準(zhǔn)度

發(fā)布時(shí)間：2026-04-30 15:10 來(lái)源：快訊作者：楊凌霄

在機(jī)器人技術(shù)領(lǐng)域，以GPT、Gemini為代表的視覺語(yǔ)言大模型（VLM）已展現(xiàn)出強(qiáng)大的語(yǔ)言理解與場(chǎng)景推理能力，但在將指令轉(zhuǎn)化為實(shí)際物理操作時(shí)仍面臨關(guān)鍵挑戰(zhàn)。這類模型雖能解析人類語(yǔ)言指令，卻難以精準(zhǔn)把握三維空間中的物體位置、朝向及可操作關(guān)系，導(dǎo)致生成的規(guī)劃方案常因忽視物理約束而無(wú)法執(zhí)行。如何讓機(jī)器人獲得可遷移的三維空間知識(shí)，成為具身智能研究的核心突破點(diǎn)。

近期發(fā)表于《科學(xué)·機(jī)器人學(xué)》的一項(xiàng)研究提出了名為RAM（Retrieval-Augmented Manipulation）的創(chuàng)新框架，通過(guò)構(gòu)建可檢索的"三維物體知識(shí)庫(kù)"為VLM補(bǔ)充空間認(rèn)知能力。該框架不依賴重新訓(xùn)練模型，而是在任務(wù)規(guī)劃階段提供精細(xì)化的空間上下文，使機(jī)器人既能理解"要做什么"，更能明確"如何操作"。研究團(tuán)隊(duì)以香港中文大學(xué)為主導(dǎo)，通過(guò)14項(xiàng)真實(shí)機(jī)械臂實(shí)驗(yàn)驗(yàn)證了其有效性。

傳統(tǒng)VLM的局限性源于其訓(xùn)練范式——多數(shù)模型基于二維圖像與文本配對(duì)數(shù)據(jù)構(gòu)建，雖擅長(zhǎng)識(shí)別視覺內(nèi)容，卻缺乏對(duì)深度、尺度及物理交互的直接經(jīng)驗(yàn)。盡管業(yè)界嘗試通過(guò)三維數(shù)據(jù)微調(diào)提升能力，但高質(zhì)量3D數(shù)據(jù)的采集與標(biāo)注成本高昂，計(jì)算資源消耗巨大。RAM框架另辟蹊徑，將空間知識(shí)存儲(chǔ)于外部知識(shí)庫(kù)，通過(guò)實(shí)時(shí)檢索為模型提供場(chǎng)景適配的空間信息。

該框架包含三大核心模塊：首先是物體類別級(jí)知識(shí)引擎，研究團(tuán)隊(duì)為不同物體類別建立標(biāo)準(zhǔn)化三維模板，標(biāo)注幾何屬性（如尺寸、對(duì)稱性）與操作屬性（如抓取點(diǎn)、功能平面）。這種類別級(jí)建模方式可覆蓋同類物體的多種變體，顯著降低數(shù)據(jù)需求。其次是三維視覺接地模型，其功能是將模板中的通用空間描述映射到真實(shí)場(chǎng)景中的具體物體實(shí)例。該模塊通過(guò)合成數(shù)據(jù)訓(xùn)練，在真實(shí)實(shí)驗(yàn)中展現(xiàn)出對(duì)未見物體的泛化能力。最后是檢索增強(qiáng)任務(wù)規(guī)劃器，它將空間信息轉(zhuǎn)化為結(jié)構(gòu)化文本輸入VLM，使模型能生成包含抓取點(diǎn)選擇、平面對(duì)齊方向等細(xì)粒度約束的操作規(guī)劃，再通過(guò)軌跡優(yōu)化轉(zhuǎn)化為機(jī)器人可執(zhí)行的動(dòng)作。

實(shí)驗(yàn)環(huán)節(jié)覆蓋了31個(gè)物體實(shí)例與11個(gè)物體類別，包含單物體單步驟、多物體單步驟及多物體多步驟三類語(yǔ)言指令驅(qū)動(dòng)任務(wù)。在120次重復(fù)測(cè)試中，RAM框架取得89.17%的平均成功率，其中最復(fù)雜的多物體多步驟任務(wù)成功率達(dá)80%。研究還測(cè)試了圖像引導(dǎo)操作能力，機(jī)器人僅需參考目標(biāo)擺放圖即可理解物體相對(duì)位置與朝向。在餐具擺放任務(wù)中，常規(guī)平面場(chǎng)景成功率達(dá)92%，復(fù)雜高低平面場(chǎng)景成功率仍保持72%，突破了傳統(tǒng)方法對(duì)俯視參考圖的依賴。

針對(duì)需要空間推理的自主決策任務(wù)，RAM框架展現(xiàn)出顯著優(yōu)勢(shì)。在清理桌面場(chǎng)景中，機(jī)器人需根據(jù)桌面高度、垃圾桶尺寸及物體位置選擇清掃方案。當(dāng)直接清掃不可行時(shí)，系統(tǒng)能規(guī)劃借助簸箕的間接方案，平均成功率達(dá)65%。這表明通過(guò)顯式獲取空間約束，機(jī)器人可排除物理上不可行的語(yǔ)義方案，選擇更可靠的操作策略。

研究團(tuán)隊(duì)進(jìn)一步探索了框架在非剛體物體操作中的擴(kuò)展性。對(duì)于筆記本電腦、抽屜等鉸接物體，采用多模板匹配策略預(yù)設(shè)不同開合狀態(tài)，通過(guò)觀測(cè)結(jié)果匹配最接近模板以估計(jì)旋轉(zhuǎn)軸或推動(dòng)方向。在柔性物體操作方面，以疊衣服任務(wù)為例，將折疊過(guò)程拆解為展開、疊袖等階段，并為各狀態(tài)匹配相應(yīng)模板。實(shí)驗(yàn)還初步結(jié)合觸覺傳感器，當(dāng)抓取過(guò)程中物體因重心偏移發(fā)生滑動(dòng)時(shí)，系統(tǒng)可利用觸覺反饋重新規(guī)劃抓取姿勢(shì)。

更多>同類內(nèi)容

99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

檢索增強(qiáng)新突破：為機(jī)器人裝上“三維空間導(dǎo)航儀” 提升操作精準(zhǔn)度

99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线兰|寡妇的肉体完整版