字節開源Bernini框架：AI視頻編輯告別“聽不懂人話”，先理解再生成更精準

發布時間：2026-06-02 21:25 來源：快訊作者：吳俊

在AI視頻生成領域，創作者長期面臨一個核心痛點：模型難以精準理解人類意圖。當用戶試圖將晴天場景改為雪天，或要求將動畫嵌入商場LED屏時，現有工具常出現雪花堆砌、透視錯亂等問題。字節商業化技術團隊近日推出的開源框架Bernini，通過"先理解后生成"的創新機制，為行業提供了突破性解決方案。

該框架采用雙模型協作架構，由多模態大模型（MLLM-based planner）與擴散模型（DiT-based renderer）構成。前者負責語義解析與規劃，通過分析文本指令、源視頻及參考素材，生成包含內容結構、編輯區域等關鍵信息的"語義草圖"；后者則基于規劃結果進行視覺渲染，確保生成畫面在光照、透視、運動關系等方面保持時空連續性。這種分工機制使視頻編輯從"指令響應"升級為"意圖理解"。

在天氣變換測試中，系統能同步調整天空云層、路面反光、建筑陰影等20余個環境參數，使雪天場景呈現真實的積雪厚度變化與光線衰減效果。更突破性的是鏡頭語言控制能力，創作者可通過指令調整畫面焦點，實現從前景咖啡杯到背景窗外街景的平滑過渡，或保持主體身份不變的前提下修改動作軌跡——當棕熊視頻被要求改為"跳舞"時，系統能精準控制四肢運動幅度，同時維持環境光照與鏡頭穩定性。

針對AIGC創作中常見的"描述偏差"問題，Bernini引入多模態參考機制。在材質替換測試中，輸入布料紋理參考圖后，系統能自動識別盤子表面屬性，生成具有織物褶皺與纖維質感的視覺效果，且該特征會隨物體運動保持穩定。風格遷移功能支持跨維度適配，當用戶輸入賽博朋克風格參考圖時，系統不僅調整色彩基調，還能為原始視頻中的汽車添加霓虹燈帶、為建筑添加全息投影等細節元素。

該框架的另一創新在于多素材協同處理技術。當需要將油畫植入街頭招牌時，系統通過SA-3D RoPE空間編碼機制，自動識別參考圖與源視頻的時空坐標關系，生成符合透視原理的嵌入效果，有效解決傳統方法常見的邊界閃爍問題。在多元素組合測試中，系統成功將大理石雕塑、貓耳耳機、熱帶短褲等無關參考圖，融合為站立在落日海灘的虛擬角色，各部件比例與光照關系保持高度協調。

技術文檔顯示，Bernini在Arena基準測試中已達到行業頂尖水平，特別是在復雜場景編輯任務中展現出顯著優勢。目前開源的Bernini-R版本聚焦視覺渲染模塊，完整版預計將整合更強大的語義規劃能力。開發者可通過GitHub、Hugging Face等平臺獲取代碼，項目主頁提供了詳細的操作指南與案例演示。

更多>同類內容