99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

字節Seed團隊新論文:破解AI生圖模型能力疊加難題,實現高效編輯與生成雙贏

   發布時間:2026-07-02 08:53 作者:任飛揚

在火山引擎FORCE原動力大會上,字節跳動再次展示了其在圖像與視頻生成領域的創新實力。圖像生成模型Seedream 5.0 Pro和視頻生成模型Seedance 2.5的亮相,標志著該公司在多模態生成技術上邁出了重要一步。Seedream 5.0 Pro不僅支持交互式精準編輯,還能將畫面拆解為多圖層,直接生成可編輯的分層設計圖;而Seedance 2.5則將單段原生時長延長至30秒,并支持50個素材的聯合參考,為視頻創作提供了更多可能性。

回顧過去一年多的發展歷程,字節跳動的生成模型幾乎保持了每月更新的頻率。其中,2025年9月發布的Seedream 4.0是一個關鍵節點,它首次將“按文字生成圖片”和“修改已有圖片”兩種功能整合到同一個模型中。然而,這種整合并非簡單相加,實際操作中常常面臨能力沖突的問題。例如,增加局部編輯功能可能會影響文生圖的基本性能,而疊加全局改寫功能又可能導致局部編輯出現混亂。模型在處理多種任務時,就像多人同時操控方向盤,最終結果往往偏離預期方向。

為了解決這一難題,字節Seed團隊聯合新加坡國立大學等高校,在arXiv平臺上發布了一篇名為DanceOPD的論文。該研究由NUS資深教授Tat-Seng Chua參與指導,體現了工業界與學術界的深度合作。論文提出了一種新方法,旨在為生成模型添加新功能的同時,不削弱原有能力。這一研究不僅具有學術價值,更與用戶實際使用場景高度契合。在字節的AI創作工具即夢中,用戶通常會連續進行多個操作:先生成圖片,再修改背景、更換風格、擴展畫幅或進行局部重繪。理想情況下,這些操作應由同一個模型完成,但現實中每增加一種編輯功能,要么需要額外部署專用模型,要么將功能硬塞進主模型導致文生圖質量下降。DanceOPD提供了一種新的解決方案:將訓練好的“編輯專家”模型作為“凍結教師”,通過蒸餾技術將其能力遷移到主模型中,且僅更新少量輕量參數,避免對主模型的基礎結構造成影響。

從產品邏輯來看,這種方法實現了“增量加能力”。Seedream系列模型從4.0到5.0的迭代過程中,每次更新都為主模型增添了新功能。傳統做法通常采用重訓或權重融合,但這些方法存在風險:新功能提升的同時,老功能可能退化。論文中的實測結果顯示,采用權重融合方式時,文生圖分數基本保持不變,但圖片編輯能力直接歸零,這正是傳統方法局限性的體現。而DanceOPD采用的硬路由蒸餾技術,理論上可以在不影響現有能力的情況下添加新的編輯功能,顯著降低了迭代成本和失敗概率。

該研究還解決了兩個具體問題:其一,將CFG(無分類器引導)作為一種能力場吸收進模型權重中,省去了推理時的額外計算,對于處理海量C端請求的即夢產品而言,每張圖片節省一次計算都意味著實際成本的降低;其二,Seedream 5.0主打的精致紋理和SeedEdit主打的“非編輯區域保持不動”功能,在DanceOPD框架中分別對應“寫實場吸收”和“保留型局部編輯場”,均得到了明確支持。

盡管論文尚未明確說明這套機制已應用于哪個版本的Seedream模型,目前仍處于研究階段,但其瞄準的問題、采用的技術底座(計劃支持SD3.5、Z-Image等開源流匹配模型)與字節跳動的產品路線高度一致。要理解這篇論文的核心貢獻,需先了解當前主流生圖模型的工作原理。這些模型通常采用流匹配技術,將“從隨機噪聲生成清晰圖片”的過程分解為無數微小位移,每個位置都有一個“速度場”指導數據移動方向。文生圖、局部編輯和全局改寫分別對應不同的速度場,但這些場之間往往相互干擾,導致生成結果模糊不清。論文將這種能力丟失現象命名為“capability identity”,即能力的身份缺失。

針對這一問題,業界此前嘗試過多種方法,如聯合訓練、權重融合和離策略蒸餾等,但這些方法都存在局限性:聯合訓練會稀釋編輯能力,權重融合會導致編輯能力崩潰,離策略蒸餾則面臨訓練與部署場景不匹配的問題。DanceOPD提出了三招創新解決方案:第一招是硬路由,不再平均多個教師模型的結論,而是為每個訓練樣本指定唯一教師,確保能力身份不被模糊;第二招是采用在策略蒸餾,在學生模型實際生成軌跡的狀態上進行教學,而非在教師模型或數據中的狀態上進行;第三招是選擇低噪聲點進行單點對齊,采用簡單的均方誤差(MSE)作為對齊方式,避免使用復雜的獎勵模型或對抗判別器。實驗數據顯示,硬路由配單點MSE的組合在圖像編輯評測GEditBench上取得了5.347的分數,比最強基線高出8.1%;在局部編輯加全局編輯的組合上取得5.498的分數,比最強對照高出16.1%;同時,衡量文生圖基本功的Geneval指標不降反升。

雖然DanceOPD的官方代碼尚未公開,GitHub上顯示“等待批準發布”,且計劃支持的Seedream、SeedEdit教師模型也不開源,導致外部難以立即復現論文結果,但其核心機制——硬路由加在策略蒸餾——已通過簡單實驗得到驗證。研究人員用兩個目標分布代替兩種能力,一個圓環代表“文生圖”,四個角的點簇代表“編輯”,各配一個凍結的教師速度場,然后用三種策略訓練同一個小網絡。軟融合策略將兩個教師模型的箭頭平均教學,結果導致生成圓環時出現點簇,文生圖能力被編輯功能干擾;而DanceOPD的硬路由加在策略蒸餾策略則成功保持了兩種能力的獨立性,量化結果顯示,到目標分布的平均偏差從軟融合的0.239降至0.028,降幅約88%。對于字節跳動這樣已將多能力生圖技術產品化的企業而言,DanceOPD的研究為解決能力沖突問題提供了清晰的思路,也為AI圖片的直接修改提供了高效路徑。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新