99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動(dòng)中國媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

港大阿里聯(lián)合推出FineVLA框架:機(jī)器人執(zhí)行指令更精細(xì) 一句話掌控操作細(xì)節(jié)

   發(fā)布時(shí)間:2026-06-26 16:12 作者:顧青青

在機(jī)器人技術(shù)領(lǐng)域,如何讓機(jī)器更精準(zhǔn)地理解并執(zhí)行人類指令一直是研究熱點(diǎn)。傳統(tǒng)機(jī)器人模型雖能完成“將杯子放入籃子”等基礎(chǔ)任務(wù),但在執(zhí)行細(xì)節(jié)上,如使用哪只手、從哪個(gè)方向抓取、抓取杯身還是杯柄等,往往缺乏明確指導(dǎo)。這導(dǎo)致機(jī)器人執(zhí)行任務(wù)時(shí)靈活性不足,難以適應(yīng)復(fù)雜多變的環(huán)境需求。

針對這一難題,香港大學(xué)XLANG Lab與阿里巴巴Qwen團(tuán)隊(duì)聯(lián)合提出名為FineVLA的開源框架。該框架通過引入細(xì)粒度語言控制,使機(jī)器人不僅能完成任務(wù)目標(biāo),還能按照人類指定的方式執(zhí)行動(dòng)作。例如,用戶可通過語言指令控制機(jī)器人使用左手、從特定角度接近物體、抓取指定部位等。實(shí)驗(yàn)數(shù)據(jù)顯示,在RoboTwin仿真環(huán)境中,F(xiàn)ineVLA的最佳混合策略設(shè)置成功率達(dá)86.8%/82.5%,較基線模型提升15.0/11.1個(gè)百分點(diǎn);在真實(shí)雙臂機(jī)器人平臺(tái)上,成功率從49.9%提升至62.7%,在姿態(tài)、顏色、接近方向等關(guān)鍵指標(biāo)上均有顯著改善。

現(xiàn)有VLA(視覺-語言-動(dòng)作)模型雖能根據(jù)自然語言完成抓取、放置等操作,但語言監(jiān)督粒度較粗。例如,不同軌跡可能涉及使用左臂或右臂、繞過障礙物或直線移動(dòng)等差異,但數(shù)據(jù)集中往往僅標(biāo)注“拿起勺子”這類目標(biāo)級指令。這種標(biāo)注方式導(dǎo)致模型難以從語言中學(xué)習(xí)具體的執(zhí)行約束,如使用哪只手、從哪個(gè)方向接近物體等。目前多數(shù)機(jī)器人數(shù)據(jù)集缺乏細(xì)粒度標(biāo)注,成為構(gòu)建可控VLA系統(tǒng)的主要障礙。

FineVLA框架通過構(gòu)建“數(shù)據(jù)-模型-評測-策略”的完整閉環(huán),系統(tǒng)性解決三大核心挑戰(zhàn):缺乏細(xì)粒度標(biāo)注基礎(chǔ)設(shè)施、缺乏評測基準(zhǔn)與標(biāo)注工具、缺乏細(xì)粒度語言對策略學(xué)習(xí)影響的系統(tǒng)性證據(jù)。該框架包含四個(gè)核心組件:FineVLA-Tool負(fù)責(zé)將異構(gòu)數(shù)據(jù)轉(zhuǎn)化為細(xì)粒度標(biāo)注數(shù)據(jù);RoboFine-VLM作為專用視覺語言模型,用于生成機(jī)器人動(dòng)作描述;RoboFine-Bench提供細(xì)粒度動(dòng)作理解評測基準(zhǔn);FineVLA-Policy則驗(yàn)證混合訓(xùn)練策略的有效性。

在數(shù)據(jù)處理環(huán)節(jié),F(xiàn)ineVLA-Tool從10個(gè)開源數(shù)據(jù)集中匯總97萬條機(jī)器人軌跡,通過統(tǒng)一格式、動(dòng)作規(guī)范化、DTW聚類去重等步驟,最終篩選出4.7萬條代表性樣本。這些樣本沿動(dòng)作序列、執(zhí)行體、目標(biāo)物體、接觸方式等10個(gè)維度進(jìn)行標(biāo)注,標(biāo)注詞數(shù)從平均9.3個(gè)增至96.8個(gè),提升10.4倍。為解決通用視覺語言模型(VLM)難以描述機(jī)器人動(dòng)作細(xì)節(jié)的問題,研究團(tuán)隊(duì)對Qwen3.5-VL模型進(jìn)行微調(diào),得到能輸出步驟級動(dòng)作描述的RoboFine-VLM,可作為未來數(shù)據(jù)擴(kuò)展的可擴(kuò)展標(biāo)注器。

評測方面,RoboFine-Bench包含500段視頻、32種機(jī)器人形態(tài)和1.1萬個(gè)原子事實(shí),設(shè)有VQA(視覺問答)和Caption(描述生成)兩個(gè)軌道。VQA軌道包含1030個(gè)問題,覆蓋實(shí)體定位、動(dòng)作理解、狀態(tài)推理三個(gè)維度;Caption軌道要求模型生成細(xì)粒度動(dòng)作描述,由大語言模型評判輸出與原子事實(shí)的對齊程度。實(shí)驗(yàn)結(jié)果顯示,RoboFine-VLM在VQA軌道準(zhǔn)確率達(dá)68.2%,較通用基線模型提升8個(gè)百分點(diǎn);在Caption硬模式(無語言線索)下得分82.2%,超越GPT-5.4模型。

策略驗(yàn)證環(huán)節(jié),研究團(tuán)隊(duì)通過控制語言監(jiān)督類型(僅原始指令/僅細(xì)粒度指令/混合指令),系統(tǒng)評估細(xì)粒度標(biāo)注對策略學(xué)習(xí)的影響。實(shí)驗(yàn)表明,細(xì)粒度監(jiān)督不損害任務(wù)成功率,且與原始指令形成互補(bǔ)。在RoboTwin仿真中,混合指令策略成功率呈倒U型趨勢,最佳比例為細(xì)粒度指令與原始指令1:1至1:2,此時(shí)成功率達(dá)86.8%。真實(shí)機(jī)器人實(shí)驗(yàn)進(jìn)一步驗(yàn)證,混合指令策略在顏色、姿態(tài)、接近方向等指標(biāo)上提升顯著,尤其在訓(xùn)練中未出現(xiàn)的“左手操作右側(cè)目標(biāo)”等組合任務(wù)中,成功率從0提升至10%,顯示細(xì)粒度監(jiān)督帶來的因子級泛化能力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新