99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

字節開源Bernini框架:AI視頻編輯告別“聽不懂人話”,先理解再生成更精準

   發布時間:2026-06-02 21:25 作者:吳俊

在AI視頻生成領域,創作者長期面臨一個核心痛點:模型難以精準理解人類意圖。當用戶試圖將晴天場景改為雪天,或要求將動畫嵌入商場LED屏時,現有工具常出現雪花堆砌、透視錯亂等問題。字節商業化技術團隊近日推出的開源框架Bernini,通過"先理解后生成"的創新機制,為行業提供了突破性解決方案。

該框架采用雙模型協作架構,由多模態大模型(MLLM-based planner)與擴散模型(DiT-based renderer)構成。前者負責語義解析與規劃,通過分析文本指令、源視頻及參考素材,生成包含內容結構、編輯區域等關鍵信息的"語義草圖";后者則基于規劃結果進行視覺渲染,確保生成畫面在光照、透視、運動關系等方面保持時空連續性。這種分工機制使視頻編輯從"指令響應"升級為"意圖理解"。

在天氣變換測試中,系統能同步調整天空云層、路面反光、建筑陰影等20余個環境參數,使雪天場景呈現真實的積雪厚度變化與光線衰減效果。更突破性的是鏡頭語言控制能力,創作者可通過指令調整畫面焦點,實現從前景咖啡杯到背景窗外街景的平滑過渡,或保持主體身份不變的前提下修改動作軌跡——當棕熊視頻被要求改為"跳舞"時,系統能精準控制四肢運動幅度,同時維持環境光照與鏡頭穩定性。

針對AIGC創作中常見的"描述偏差"問題,Bernini引入多模態參考機制。在材質替換測試中,輸入布料紋理參考圖后,系統能自動識別盤子表面屬性,生成具有織物褶皺與纖維質感的視覺效果,且該特征會隨物體運動保持穩定。風格遷移功能支持跨維度適配,當用戶輸入賽博朋克風格參考圖時,系統不僅調整色彩基調,還能為原始視頻中的汽車添加霓虹燈帶、為建筑添加全息投影等細節元素。

該框架的另一創新在于多素材協同處理技術。當需要將油畫植入街頭招牌時,系統通過SA-3D RoPE空間編碼機制,自動識別參考圖與源視頻的時空坐標關系,生成符合透視原理的嵌入效果,有效解決傳統方法常見的邊界閃爍問題。在多元素組合測試中,系統成功將大理石雕塑、貓耳耳機、熱帶短褲等無關參考圖,融合為站立在落日海灘的虛擬角色,各部件比例與光照關系保持高度協調。

技術文檔顯示,Bernini在Arena基準測試中已達到行業頂尖水平,特別是在復雜場景編輯任務中展現出顯著優勢。目前開源的Bernini-R版本聚焦視覺渲染模塊,完整版預計將整合更強大的語義規劃能力。開發者可通過GitHub、Hugging Face等平臺獲取代碼,項目主頁提供了詳細的操作指南與案例演示。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新