99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线兰|寡妇的肉体完整版

<td id="yyxkh"></td>

<track id="yyxkh"><input id="yyxkh"><small id="yyxkh"></small></input></track>

<td id="yyxkh"></td>

站內(nèi)搜索 | 手機(jī)版

媒體界 - 推動(dòng)中國(guó)媒體行業(yè)創(chuàng)新，促進(jìn)業(yè)內(nèi)人士交流分享！

媒體界 > 科技前沿 > 正文內(nèi)容

北大與UCSD團(tuán)隊(duì)提出VideoOrion：Object Tokens解鎖視頻理解新維度

發(fā)布時(shí)間：2025-11-28 04:53 來(lái)源：快訊作者：蘇婉清

在視頻理解領(lǐng)域，北大與UCSD聯(lián)合團(tuán)隊(duì)提出了一項(xiàng)創(chuàng)新框架——VideoOrion，其論文被國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ICCV 2025以高分接收。該研究針對(duì)現(xiàn)有Video-LLM模型依賴(lài)下采樣或特征聚合導(dǎo)致細(xì)節(jié)丟失、語(yǔ)義糾纏的問(wèn)題，提出將視頻中前景物體的時(shí)空動(dòng)態(tài)顯式編碼為“對(duì)象令牌”（Object Tokens），并與背景上下文令牌（Context Tokens）并行輸入大語(yǔ)言模型（LLM），構(gòu)建出兼具高效性與可解釋性的視頻理解系統(tǒng)。

傳統(tǒng)方法通常將視頻幀分割為空間網(wǎng)格或聚合特征生成令牌，但這種處理方式容易混淆不同物體的語(yǔ)義信息。VideoOrion的創(chuàng)新之處在于，它將視頻中的對(duì)象及其跨幀演化視為獨(dú)立語(yǔ)義單元，通過(guò)“檢測(cè)-分割-跟蹤”三步流水線(xiàn)提取對(duì)象動(dòng)態(tài)。具體而言，系統(tǒng)首先利用通用檢測(cè)模型GroundingDINO在關(guān)鍵幀生成候選框，再通過(guò)分割模型SAM細(xì)化對(duì)象掩碼，最后用跨幀跟蹤器XMem生成隨時(shí)間變化的掩碼序列。這些掩碼經(jīng)過(guò)特征池化與投影后，形成語(yǔ)義解耦的Object Tokens，每個(gè)令牌對(duì)應(yīng)一個(gè)獨(dú)立物體的動(dòng)態(tài)信息。

在雙分支編碼架構(gòu)中，Context Tokens分支采用CLIP或SigLIP模型對(duì)采樣幀進(jìn)行編碼，生成承載背景與場(chǎng)景信息的上下文令牌；Object Tokens分支則通過(guò)上述流水線(xiàn)提取對(duì)象級(jí)動(dòng)態(tài)。兩類(lèi)令牌被并行輸入LLM進(jìn)行融合推理，使模型既能捕捉全局場(chǎng)景信息，又能聚焦關(guān)鍵對(duì)象的細(xì)節(jié)變化。例如，在描述“紅色三輪滑板車(chē)”時(shí)，模型不僅能識(shí)別其顏色與類(lèi)型，還能解析“拖地組件”等細(xì)節(jié)；在分析動(dòng)作場(chǎng)景時(shí)，可精確分解“黑色泳裝跳板后空翻”中的動(dòng)作要素。

實(shí)驗(yàn)表明，VideoOrion在MVBench、EgoSchema、Perception-Test等五大基準(zhǔn)測(cè)試中全面超越同規(guī)模模型。以7B參數(shù)版本為例，其在MVBench上的準(zhǔn)確率達(dá)63.5%，較VideoLLaMA2提升10.1%；在EgoSchema上得分65.1，漲幅達(dá)14.6%。特別在視頻指代任務(wù)中，該框架展現(xiàn)出獨(dú)特優(yōu)勢(shì)：通過(guò)在提示模板中填入目標(biāo)對(duì)象對(duì)應(yīng)的令牌，即可直接回答“這個(gè)物體在做什么”等問(wèn)題。在VideoRef45K數(shù)據(jù)集上，經(jīng)少量微調(diào)后，其BLEU@4、METEOR等指標(biāo)均顯著優(yōu)于Artemis、Merlin等現(xiàn)有方法。

研究團(tuán)隊(duì)通過(guò)消融實(shí)驗(yàn)驗(yàn)證了設(shè)計(jì)合理性：移除對(duì)象分支會(huì)導(dǎo)致性能全面下降；預(yù)訓(xùn)練對(duì)象分支可提升模型表現(xiàn)，說(shuō)明對(duì)象令牌需先學(xué)習(xí)基礎(chǔ)語(yǔ)義再與文本對(duì)齊；令牌數(shù)量控制在64個(gè)時(shí)模型最穩(wěn)定，過(guò)多會(huì)分散注意力。流水線(xiàn)組件替換實(shí)驗(yàn)顯示，RAM++自適應(yīng)分段策略與XMem跟蹤器的組合效果最佳，較均勻分段或SAM2跟蹤均有明顯優(yōu)勢(shì)。

盡管VideoOrion在性能上取得突破，但研究也指出其局限性：引入專(zhuān)用視覺(jué)模型帶來(lái)約38.5%的時(shí)延開(kāi)銷(xiāo)，低質(zhì)量視頻可能導(dǎo)致掩碼不準(zhǔn)確；當(dāng)前仍依賴(lài)視頻分支提供上下文，對(duì)象-場(chǎng)景融合機(jī)制需進(jìn)一步優(yōu)化。該框架通過(guò)結(jié)構(gòu)化重寫(xiě)視頻語(yǔ)義，為視頻問(wèn)答、機(jī)器人感知等任務(wù)提供了新范式，其雙視角編碼思路或推動(dòng)多模態(tài)領(lǐng)域向更精細(xì)化的方向發(fā)展。

更多>同類(lèi)內(nèi)容

從跟風(fēng)到悅己：這群人用理性消費(fèi)，尋回生活的本真快樂(lè)

11-28

2025GIS全球創(chuàng)新展12月啟幕！機(jī)器人軍團(tuán)集結(jié)，科技資本大咖共話(huà)創(chuàng)新未來(lái)

11-28

科大訊飛布局寧夏市場(chǎng) 成立注冊(cè)資本千萬(wàn)級(jí)信息科技新公司

11-28

方程豹鈦3第三次OTA升級(jí)來(lái)襲 8項(xiàng)新增10項(xiàng)優(yōu)化重塑智能出行體驗(yàn)

11-28

深藍(lán)另辟蹊徑！借“國(guó)資打臺(tái)+車(chē)企唱戲”模式接盤(pán)北京現(xiàn)代閑置工廠

11-28

停擺近一年極越汽車(chē)啟動(dòng)預(yù)重整引入新戰(zhàn)略投資人盤(pán)活資產(chǎn)護(hù)用戶(hù)權(quán)益

11-28

理想CEO李想：未來(lái)汽車(chē)將成具身智能核心，3-5年?duì)幾鲱I(lǐng)域佼佼者

11-27

固態(tài)電池“破局”：告別續(xù)航焦慮，2027年或駛上街頭

11-27

固態(tài)電池未至，增程電動(dòng)車(chē)先火：兼顧當(dāng)下與未來(lái)的出行優(yōu)選？

11-27

西譯訊飛智譯工坊奪冠！以代碼與創(chuàng)新，在教育浪潮中揚(yáng)帆啟航

11-27

數(shù)字引擎轟鳴，“數(shù)谷呂梁”開(kāi)啟資源型城市向“智”而興新篇章

11-27

AI浪潮下電商格局生變：流量遷徙，大模型或成新入口開(kāi)啟“抽傭”時(shí)代

11-27

極越汽車(chē)步入法治化重整軌道：技術(shù)資產(chǎn)成關(guān)鍵，能否重獲生機(jī)待解

11-27

極越“復(fù)活”在即？啟動(dòng)預(yù)重整程序，能否尋得新投資再續(xù)生機(jī)？

11-27

2025字節(jié)跳動(dòng)獎(jiǎng)學(xué)金公布：獎(jiǎng)金翻倍至20萬(wàn)元，追加獎(jiǎng)勵(lì)導(dǎo)師10萬(wàn)元

11-26

點(diǎn)擊查看更多 +

全站最新

從跟風(fēng)到悅己：這群人用理性消費(fèi)，尋回生活的本真快樂(lè)

從跟風(fēng)到悅己：這群人用理性消費(fèi)，尋回生活的本真快樂(lè)

2025GIS全球創(chuàng)新展12月啟幕！機(jī)器人軍團(tuán)集結(jié)，科技資本大咖共話(huà)創(chuàng)新未來(lái)

2025GIS全球創(chuàng)新展12月啟幕！機(jī)器人軍團(tuán)集結(jié)，科技資本大咖共話(huà)創(chuàng)新未來(lái)

科大訊飛布局寧夏市場(chǎng) 成立注冊(cè)資本千萬(wàn)級(jí)信息科技新公司

科大訊飛布局寧夏市場(chǎng) 成立注冊(cè)資本千萬(wàn)級(jí)信息科技新公司

方程豹鈦3第三次OTA升級(jí)來(lái)襲 8項(xiàng)新增10項(xiàng)優(yōu)化重塑智能出行體驗(yàn)

方程豹鈦3第三次OTA升級(jí)來(lái)襲 8項(xiàng)新增10項(xiàng)優(yōu)化重塑智能出行體驗(yàn)

深藍(lán)另辟蹊徑！借“國(guó)資打臺(tái)+車(chē)企唱戲”模式接盤(pán)北京現(xiàn)代閑置工廠

深藍(lán)另辟蹊徑！借“國(guó)資打臺(tái)+車(chē)企唱戲”模式接盤(pán)北京現(xiàn)代閑置工廠

停擺近一年極越汽車(chē)啟動(dòng)預(yù)重整引入新戰(zhàn)略投資人盤(pán)活資產(chǎn)護(hù)用戶(hù)權(quán)益

停擺近一年極越汽車(chē)啟動(dòng)預(yù)重整引入新戰(zhàn)略投資人盤(pán)活資產(chǎn)護(hù)用戶(hù)權(quán)益

理想CEO李想：未來(lái)汽車(chē)將成具身智能核心，3-5年?duì)幾鲱I(lǐng)域佼佼者

理想CEO李想：未來(lái)汽車(chē)將成具身智能核心，3-5年?duì)幾鲱I(lǐng)域佼佼者

固態(tài)電池“破局”：告別續(xù)航焦慮，2027年或駛上街頭

固態(tài)電池“破局”：告別續(xù)航焦慮，2027年或駛上街頭

熱門(mén)內(nèi)容

本欄最新

媒體界微信：netspread（注明:媒體界）媒體界使命：推動(dòng)中國(guó)媒體行業(yè)創(chuàng)新，促進(jìn)業(yè)內(nèi)人士交流分享！
Copyright ? 2016-2023 mws.com.cn All rights reserved. 魯ICP備11015305號(hào)

<td id="5v3b8"><tr id="5v3b8"><th id="5v3b8"></th></tr></td>

<td id="5v3b8"></td>

<p id="5v3b8"><ins id="5v3b8"></ins></p>