99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動(dòng)中國(guó)媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

北大與UCSD團(tuán)隊(duì)提出VideoOrion:Object Tokens解鎖視頻理解新維度

   發(fā)布時(shí)間:2025-11-28 04:53 作者:蘇婉清

在視頻理解領(lǐng)域,北大與UCSD聯(lián)合團(tuán)隊(duì)提出了一項(xiàng)創(chuàng)新框架——VideoOrion,其論文被國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ICCV 2025以高分接收。該研究針對(duì)現(xiàn)有Video-LLM模型依賴(lài)下采樣或特征聚合導(dǎo)致細(xì)節(jié)丟失、語(yǔ)義糾纏的問(wèn)題,提出將視頻中前景物體的時(shí)空動(dòng)態(tài)顯式編碼為“對(duì)象令牌”(Object Tokens),并與背景上下文令牌(Context Tokens)并行輸入大語(yǔ)言模型(LLM),構(gòu)建出兼具高效性與可解釋性的視頻理解系統(tǒng)。

傳統(tǒng)方法通常將視頻幀分割為空間網(wǎng)格或聚合特征生成令牌,但這種處理方式容易混淆不同物體的語(yǔ)義信息。VideoOrion的創(chuàng)新之處在于,它將視頻中的對(duì)象及其跨幀演化視為獨(dú)立語(yǔ)義單元,通過(guò)“檢測(cè)-分割-跟蹤”三步流水線(xiàn)提取對(duì)象動(dòng)態(tài)。具體而言,系統(tǒng)首先利用通用檢測(cè)模型GroundingDINO在關(guān)鍵幀生成候選框,再通過(guò)分割模型SAM細(xì)化對(duì)象掩碼,最后用跨幀跟蹤器XMem生成隨時(shí)間變化的掩碼序列。這些掩碼經(jīng)過(guò)特征池化與投影后,形成語(yǔ)義解耦的Object Tokens,每個(gè)令牌對(duì)應(yīng)一個(gè)獨(dú)立物體的動(dòng)態(tài)信息。

在雙分支編碼架構(gòu)中,Context Tokens分支采用CLIP或SigLIP模型對(duì)采樣幀進(jìn)行編碼,生成承載背景與場(chǎng)景信息的上下文令牌;Object Tokens分支則通過(guò)上述流水線(xiàn)提取對(duì)象級(jí)動(dòng)態(tài)。兩類(lèi)令牌被并行輸入LLM進(jìn)行融合推理,使模型既能捕捉全局場(chǎng)景信息,又能聚焦關(guān)鍵對(duì)象的細(xì)節(jié)變化。例如,在描述“紅色三輪滑板車(chē)”時(shí),模型不僅能識(shí)別其顏色與類(lèi)型,還能解析“拖地組件”等細(xì)節(jié);在分析動(dòng)作場(chǎng)景時(shí),可精確分解“黑色泳裝跳板后空翻”中的動(dòng)作要素。

實(shí)驗(yàn)表明,VideoOrion在MVBench、EgoSchema、Perception-Test等五大基準(zhǔn)測(cè)試中全面超越同規(guī)模模型。以7B參數(shù)版本為例,其在MVBench上的準(zhǔn)確率達(dá)63.5%,較VideoLLaMA2提升10.1%;在EgoSchema上得分65.1,漲幅達(dá)14.6%。特別在視頻指代任務(wù)中,該框架展現(xiàn)出獨(dú)特優(yōu)勢(shì):通過(guò)在提示模板中填入目標(biāo)對(duì)象對(duì)應(yīng)的令牌,即可直接回答“這個(gè)物體在做什么”等問(wèn)題。在VideoRef45K數(shù)據(jù)集上,經(jīng)少量微調(diào)后,其BLEU@4、METEOR等指標(biāo)均顯著優(yōu)于Artemis、Merlin等現(xiàn)有方法。

研究團(tuán)隊(duì)通過(guò)消融實(shí)驗(yàn)驗(yàn)證了設(shè)計(jì)合理性:移除對(duì)象分支會(huì)導(dǎo)致性能全面下降;預(yù)訓(xùn)練對(duì)象分支可提升模型表現(xiàn),說(shuō)明對(duì)象令牌需先學(xué)習(xí)基礎(chǔ)語(yǔ)義再與文本對(duì)齊;令牌數(shù)量控制在64個(gè)時(shí)模型最穩(wěn)定,過(guò)多會(huì)分散注意力。流水線(xiàn)組件替換實(shí)驗(yàn)顯示,RAM++自適應(yīng)分段策略與XMem跟蹤器的組合效果最佳,較均勻分段或SAM2跟蹤均有明顯優(yōu)勢(shì)。

盡管VideoOrion在性能上取得突破,但研究也指出其局限性:引入專(zhuān)用視覺(jué)模型帶來(lái)約38.5%的時(shí)延開(kāi)銷(xiāo),低質(zhì)量視頻可能導(dǎo)致掩碼不準(zhǔn)確;當(dāng)前仍依賴(lài)視頻分支提供上下文,對(duì)象-場(chǎng)景融合機(jī)制需進(jìn)一步優(yōu)化。該框架通過(guò)結(jié)構(gòu)化重寫(xiě)視頻語(yǔ)義,為視頻問(wèn)答、機(jī)器人感知等任務(wù)提供了新范式,其雙視角編碼思路或推動(dòng)多模態(tài)領(lǐng)域向更精細(xì)化的方向發(fā)展。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容
本欄最新