99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

京東開源全球首個全棧實時視頻視覺語言交互模型JoyAI-VL-Interaction 賦能多場景AI助手

   發布時間:2026-06-23 06:45 作者:沈如風

京東近日正式開源了全球首個全棧開源的實時視頻視覺語言交互模型——JoyAI-VL-Interaction,并獲得vLLM-Omni的day-0原生支持。這一創新模型標志著大模型交互方式從傳統的“一問一答”模式向“邊看邊說”的動態交互邁出了重要一步,為開發者構建具備持續觀察、自主判斷和即時響應能力的實景AI助手提供了全新框架。

與傳統模型依賴用戶發起問題后才開始處理畫面的被動模式不同,JoyAI-VL-Interaction具備主動判斷能力。它能夠持續觀察視頻流,自主分析場景變化,無需等待指令即可決定何時需要輸出信息或保持沉默。這種特性在安防監控、老人看護等需要實時響應的場景中具有顯著優勢,避免了因延遲導致的風險或體驗下降。

在實時性方面,該模型突破了傳統視頻理解需上傳完整文件后再分析的限制。針對安防預警、實時翻譯、直播解說等對時間敏感的場景,JoyAI-VL-Interaction可對正在發生的視頻流進行即時處理,畫面變化時立即響應,確保信息傳遞的時效性。例如,在直播帶貨場景中,模型能實時識別商品特征并生成解說內容,提升互動效率。

模型還引入了“適時智能體委托”機制,通過前后臺協同優化任務處理效率。當遇到生成代碼、復雜推理等需要高算力支持的任務時,前臺模型可將任務委派給后臺大模型或Agent,自身繼續保持對現場的觀察。任務完成后,結果無縫融入對話流程,實現觀察與交互的并行處理。這種設計既保證了響應速度,又提升了復雜任務的處理能力。

在技術適配性上,JoyAI-VL-Interaction支持攝像頭、直播流、監控流等多種視頻輸入方式,并兼容語音輸入輸出、可視化界面、長期記憶等功能。開發者可根據需求靈活替換ASR語音識別、TTS語音合成、后臺模型等組件,甚至接入自定義業務系統或前端界面。這種模塊化設計降低了技術整合門檻,加速了應用落地速度。

目前,該模型已在監控預警、實時計數、直播導覽等58個真實流式場景中完成評測。對比豆包視頻通話助手,JoyAI-VL-Interaction總體勝率達77.6%;與Gemini視頻通話助手的對比中,勝率提升至87.9%。這些數據驗證了模型在視覺觸發響應和實時性方面的優勢,為其在安防監控、電商導購、操作指導、AI眼鏡、無障礙輔助等領域的商業化應用奠定了基礎。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新