港大阿里聯(lián)合推出FineVLA框架：機(jī)器人執(zhí)行指令更精細(xì) 一句話掌控操作細(xì)節(jié)-行業(yè)縱橫-媒體界

港大阿里聯(lián)合推出FineVLA框架：機(jī)器人執(zhí)行指令更精細(xì) 一句話掌控操作細(xì)節(jié)

發(fā)布時(shí)間：2026-06-26 16:12 來源：快訊作者：顧青青

在機(jī)器人技術(shù)領(lǐng)域，如何讓機(jī)器更精準(zhǔn)地理解并執(zhí)行人類指令一直是研究熱點(diǎn)。傳統(tǒng)機(jī)器人模型雖能完成“將杯子放入籃子”等基礎(chǔ)任務(wù)，但在執(zhí)行細(xì)節(jié)上，如使用哪只手、從哪個(gè)方向抓取、抓取杯身還是杯柄等，往往缺乏明確指導(dǎo)。這導(dǎo)致機(jī)器人執(zhí)行任務(wù)時(shí)靈活性不足，難以適應(yīng)復(fù)雜多變的環(huán)境需求。

針對這一難題，香港大學(xué)XLANG Lab與阿里巴巴Qwen團(tuán)隊(duì)聯(lián)合提出名為FineVLA的開源框架。該框架通過引入細(xì)粒度語言控制，使機(jī)器人不僅能完成任務(wù)目標(biāo)，還能按照人類指定的方式執(zhí)行動(dòng)作。例如，用戶可通過語言指令控制機(jī)器人使用左手、從特定角度接近物體、抓取指定部位等。實(shí)驗(yàn)數(shù)據(jù)顯示，在RoboTwin仿真環(huán)境中，F(xiàn)ineVLA的最佳混合策略設(shè)置成功率達(dá)86.8%/82.5%，較基線模型提升15.0/11.1個(gè)百分點(diǎn)；在真實(shí)雙臂機(jī)器人平臺(tái)上，成功率從49.9%提升至62.7%，在姿態(tài)、顏色、接近方向等關(guān)鍵指標(biāo)上均有顯著改善。

現(xiàn)有VLA（視覺-語言-動(dòng)作）模型雖能根據(jù)自然語言完成抓取、放置等操作，但語言監(jiān)督粒度較粗。例如，不同軌跡可能涉及使用左臂或右臂、繞過障礙物或直線移動(dòng)等差異，但數(shù)據(jù)集中往往僅標(biāo)注“拿起勺子”這類目標(biāo)級指令。這種標(biāo)注方式導(dǎo)致模型難以從語言中學(xué)習(xí)具體的執(zhí)行約束，如使用哪只手、從哪個(gè)方向接近物體等。目前多數(shù)機(jī)器人數(shù)據(jù)集缺乏細(xì)粒度標(biāo)注，成為構(gòu)建可控VLA系統(tǒng)的主要障礙。

FineVLA框架通過構(gòu)建“數(shù)據(jù)-模型-評測-策略”的完整閉環(huán)，系統(tǒng)性解決三大核心挑戰(zhàn)：缺乏細(xì)粒度標(biāo)注基礎(chǔ)設(shè)施、缺乏評測基準(zhǔn)與標(biāo)注工具、缺乏細(xì)粒度語言對策略學(xué)習(xí)影響的系統(tǒng)性證據(jù)。該框架包含四個(gè)核心組件：FineVLA-Tool負(fù)責(zé)將異構(gòu)數(shù)據(jù)轉(zhuǎn)化為細(xì)粒度標(biāo)注數(shù)據(jù)；RoboFine-VLM作為專用視覺語言模型，用于生成機(jī)器人動(dòng)作描述；RoboFine-Bench提供細(xì)粒度動(dòng)作理解評測基準(zhǔn)；FineVLA-Policy則驗(yàn)證混合訓(xùn)練策略的有效性。

在數(shù)據(jù)處理環(huán)節(jié)，F(xiàn)ineVLA-Tool從10個(gè)開源數(shù)據(jù)集中匯總97萬條機(jī)器人軌跡，通過統(tǒng)一格式、動(dòng)作規(guī)范化、DTW聚類去重等步驟，最終篩選出4.7萬條代表性樣本。這些樣本沿動(dòng)作序列、執(zhí)行體、目標(biāo)物體、接觸方式等10個(gè)維度進(jìn)行標(biāo)注，標(biāo)注詞數(shù)從平均9.3個(gè)增至96.8個(gè)，提升10.4倍。為解決通用視覺語言模型（VLM）難以描述機(jī)器人動(dòng)作細(xì)節(jié)的問題，研究團(tuán)隊(duì)對Qwen3.5-VL模型進(jìn)行微調(diào)，得到能輸出步驟級動(dòng)作描述的RoboFine-VLM，可作為未來數(shù)據(jù)擴(kuò)展的可擴(kuò)展標(biāo)注器。

評測方面，RoboFine-Bench包含500段視頻、32種機(jī)器人形態(tài)和1.1萬個(gè)原子事實(shí)，設(shè)有VQA（視覺問答）和Caption（描述生成）兩個(gè)軌道。VQA軌道包含1030個(gè)問題，覆蓋實(shí)體定位、動(dòng)作理解、狀態(tài)推理三個(gè)維度；Caption軌道要求模型生成細(xì)粒度動(dòng)作描述，由大語言模型評判輸出與原子事實(shí)的對齊程度。實(shí)驗(yàn)結(jié)果顯示，RoboFine-VLM在VQA軌道準(zhǔn)確率達(dá)68.2%，較通用基線模型提升8個(gè)百分點(diǎn)；在Caption硬模式（無語言線索）下得分82.2%，超越GPT-5.4模型。

策略驗(yàn)證環(huán)節(jié)，研究團(tuán)隊(duì)通過控制語言監(jiān)督類型（僅原始指令/僅細(xì)粒度指令/混合指令），系統(tǒng)評估細(xì)粒度標(biāo)注對策略學(xué)習(xí)的影響。實(shí)驗(yàn)表明，細(xì)粒度監(jiān)督不損害任務(wù)成功率，且與原始指令形成互補(bǔ)。在RoboTwin仿真中，混合指令策略成功率呈倒U型趨勢，最佳比例為細(xì)粒度指令與原始指令1:1至1:2，此時(shí)成功率達(dá)86.8%。真實(shí)機(jī)器人實(shí)驗(yàn)進(jìn)一步驗(yàn)證，混合指令策略在顏色、姿態(tài)、接近方向等指標(biāo)上提升顯著，尤其在訓(xùn)練中未出現(xiàn)的“左手操作右側(cè)目標(biāo)”等組合任務(wù)中，成功率從0提升至10%，顯示細(xì)粒度監(jiān)督帶來的因子級泛化能力。

更多>同類內(nèi)容

99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

港大阿里聯(lián)合推出FineVLA框架：機(jī)器人執(zhí)行指令更精細(xì) 一句話掌控操作細(xì)節(jié)

99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线兰|寡妇的肉体完整版