99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线兰|寡妇的肉体完整版

站內搜索 | 手機版

媒體界 - 推動中國媒體行業創新，促進業內人士交流分享！

媒體界 > 峰會論壇 > 正文內容

字節Seed團隊新論文：破解AI生圖模型能力疊加難題，實現高效編輯與生成雙贏

發布時間：2026-07-02 08:53 來源：快訊作者：任飛揚

在火山引擎FORCE原動力大會上，字節跳動再次展示了其在圖像與視頻生成領域的創新實力。圖像生成模型Seedream 5.0 Pro和視頻生成模型Seedance 2.5的亮相，標志著該公司在多模態生成技術上邁出了重要一步。Seedream 5.0 Pro不僅支持交互式精準編輯，還能將畫面拆解為多圖層，直接生成可編輯的分層設計圖；而Seedance 2.5則將單段原生時長延長至30秒，并支持50個素材的聯合參考，為視頻創作提供了更多可能性。

回顧過去一年多的發展歷程，字節跳動的生成模型幾乎保持了每月更新的頻率。其中，2025年9月發布的Seedream 4.0是一個關鍵節點，它首次將“按文字生成圖片”和“修改已有圖片”兩種功能整合到同一個模型中。然而，這種整合并非簡單相加，實際操作中常常面臨能力沖突的問題。例如，增加局部編輯功能可能會影響文生圖的基本性能，而疊加全局改寫功能又可能導致局部編輯出現混亂。模型在處理多種任務時，就像多人同時操控方向盤，最終結果往往偏離預期方向。

為了解決這一難題，字節Seed團隊聯合新加坡國立大學等高校，在arXiv平臺上發布了一篇名為DanceOPD的論文。該研究由NUS資深教授Tat-Seng Chua參與指導，體現了工業界與學術界的深度合作。論文提出了一種新方法，旨在為生成模型添加新功能的同時，不削弱原有能力。這一研究不僅具有學術價值，更與用戶實際使用場景高度契合。在字節的AI創作工具即夢中，用戶通常會連續進行多個操作：先生成圖片，再修改背景、更換風格、擴展畫幅或進行局部重繪。理想情況下，這些操作應由同一個模型完成，但現實中每增加一種編輯功能，要么需要額外部署專用模型，要么將功能硬塞進主模型導致文生圖質量下降。DanceOPD提供了一種新的解決方案：將訓練好的“編輯專家”模型作為“凍結教師”，通過蒸餾技術將其能力遷移到主模型中，且僅更新少量輕量參數，避免對主模型的基礎結構造成影響。

從產品邏輯來看，這種方法實現了“增量加能力”。Seedream系列模型從4.0到5.0的迭代過程中，每次更新都為主模型增添了新功能。傳統做法通常采用重訓或權重融合，但這些方法存在風險：新功能提升的同時，老功能可能退化。論文中的實測結果顯示，采用權重融合方式時，文生圖分數基本保持不變，但圖片編輯能力直接歸零，這正是傳統方法局限性的體現。而DanceOPD采用的硬路由蒸餾技術，理論上可以在不影響現有能力的情況下添加新的編輯功能，顯著降低了迭代成本和失敗概率。

該研究還解決了兩個具體問題：其一，將CFG（無分類器引導）作為一種能力場吸收進模型權重中，省去了推理時的額外計算，對于處理海量C端請求的即夢產品而言，每張圖片節省一次計算都意味著實際成本的降低；其二，Seedream 5.0主打的精致紋理和SeedEdit主打的“非編輯區域保持不動”功能，在DanceOPD框架中分別對應“寫實場吸收”和“保留型局部編輯場”，均得到了明確支持。

盡管論文尚未明確說明這套機制已應用于哪個版本的Seedream模型，目前仍處于研究階段，但其瞄準的問題、采用的技術底座（計劃支持SD3.5、Z-Image等開源流匹配模型）與字節跳動的產品路線高度一致。要理解這篇論文的核心貢獻，需先了解當前主流生圖模型的工作原理。這些模型通常采用流匹配技術，將“從隨機噪聲生成清晰圖片”的過程分解為無數微小位移，每個位置都有一個“速度場”指導數據移動方向。文生圖、局部編輯和全局改寫分別對應不同的速度場，但這些場之間往往相互干擾，導致生成結果模糊不清。論文將這種能力丟失現象命名為“capability identity”，即能力的身份缺失。

針對這一問題，業界此前嘗試過多種方法，如聯合訓練、權重融合和離策略蒸餾等，但這些方法都存在局限性：聯合訓練會稀釋編輯能力，權重融合會導致編輯能力崩潰，離策略蒸餾則面臨訓練與部署場景不匹配的問題。DanceOPD提出了三招創新解決方案：第一招是硬路由，不再平均多個教師模型的結論，而是為每個訓練樣本指定唯一教師，確保能力身份不被模糊；第二招是采用在策略蒸餾，在學生模型實際生成軌跡的狀態上進行教學，而非在教師模型或數據中的狀態上進行；第三招是選擇低噪聲點進行單點對齊，采用簡單的均方誤差（MSE）作為對齊方式，避免使用復雜的獎勵模型或對抗判別器。實驗數據顯示，硬路由配單點MSE的組合在圖像編輯評測GEditBench上取得了5.347的分數，比最強基線高出8.1%；在局部編輯加全局編輯的組合上取得5.498的分數，比最強對照高出16.1%；同時，衡量文生圖基本功的Geneval指標不降反升。

雖然DanceOPD的官方代碼尚未公開，GitHub上顯示“等待批準發布”，且計劃支持的Seedream、SeedEdit教師模型也不開源，導致外部難以立即復現論文結果，但其核心機制——硬路由加在策略蒸餾——已通過簡單實驗得到驗證。研究人員用兩個目標分布代替兩種能力，一個圓環代表“文生圖”，四個角的點簇代表“編輯”，各配一個凍結的教師速度場，然后用三種策略訓練同一個小網絡。軟融合策略將兩個教師模型的箭頭平均教學，結果導致生成圓環時出現點簇，文生圖能力被編輯功能干擾；而DanceOPD的硬路由加在策略蒸餾策略則成功保持了兩種能力的獨立性，量化結果顯示，到目標分布的平均偏差從軟融合的0.239降至0.028，降幅約88%。對于字節跳動這樣已將多能力生圖技術產品化的企業而言，DanceOPD的研究為解決能力沖突問題提供了清晰的思路，也為AI圖片的直接修改提供了高效路徑。

更多>同類內容

石頭科技6月30日融資動態：融資凈賣出82.43萬元融券凈賣出1100股

07-02

2026年三款AI智能降噪助聽器深度測評：精準匹配需求，開啟清晰聆聽新體驗

07-02

中國L3自動駕駛新規落地：安全底線劃定，商業化黎明前的“緊箍咒”

07-02

2026上海電科臻和：第一季度快樂會議精彩紛呈共赴下一季拼搏之約

07-01

石頭科技6月30日股價上揚1.52% 主力資金凈流入超千萬回購分紅同步推進

07-01

石頭科技6月30日股價微漲1.52% 主力資金凈流入超千萬機構看好后市

07-01

出境游旺季語言成難題？訊飛AI眼鏡輕裝上陣，多語種翻譯助力跨境出行溝通無阻

07-01

科大訊飛研究院2027屆飛星計劃啟航邀你共赴AI未來新征程

07-01

Coffee AI Sound殿堂聲音響系統奪冠，彰顯中國品牌智能聲學技術新高度

07-01

蘋果奧迪前設計師聯手打造：NASA月球車靈感加持，17萬起售的電動越野車來了

07-01

“無人網約車是騙局”等言論引糾紛，一傳媒公司侵權被判賠償并公開致歉

07-01

7月車市盛宴來襲！7款重磅新車扎堆上市，購車前必看這份清單

07-01

新能源車崛起沖擊市場：豪車價格“跳水”，二手車行業面臨大洗牌

07-01

字節跳動CEO梁汝波發全員信：更新領導力原則，聚焦實質業務產出

06-30

AI創新研學之旅啟程！7月23-24日探訪北大京東百度商湯科技領航未來

06-30

點擊查看更多 +

全站最新

石頭科技6月30日融資動態：融資凈賣出82.43萬元融券凈賣出1100股

石頭科技6月30日融資動態：融資凈賣出82.43萬元融券凈賣出1100股

2026年三款AI智能降噪助聽器深度測評：精準匹配需求，開啟清晰聆聽新體驗

2026年三款AI智能降噪助聽器深度測評：精準匹配需求，開啟清晰聆聽新體驗

中國L3自動駕駛新規落地：安全底線劃定，商業化黎明前的“緊箍咒”

中國L3自動駕駛新規落地：安全底線劃定，商業化黎明前的“緊箍咒”

2026上海電科臻和：第一季度快樂會議精彩紛呈共赴下一季拼搏之約

2026上海電科臻和：第一季度快樂會議精彩紛呈共赴下一季拼搏之約

石頭科技6月30日股價上揚1.52% 主力資金凈流入超千萬回購分紅同步推進

石頭科技6月30日股價上揚1.52% 主力資金凈流入超千萬回購分紅同步推進

石頭科技6月30日股價微漲1.52% 主力資金凈流入超千萬機構看好后市

石頭科技6月30日股價微漲1.52% 主力資金凈流入超千萬機構看好后市

出境游旺季語言成難題？訊飛AI眼鏡輕裝上陣，多語種翻譯助力跨境出行溝通無阻

出境游旺季語言成難題？訊飛AI眼鏡輕裝上陣，多語種翻譯助力跨境出行溝通無阻

科大訊飛研究院2027屆飛星計劃啟航邀你共赴AI未來新征程

科大訊飛研究院2027屆飛星計劃啟航邀你共赴AI未來新征程

熱門內容

本欄最新

媒體界微信：netspread（注明:媒體界）媒體界使命：推動中國媒體行業創新，促進業內人士交流分享！
Copyright ? 2016-2023 mws.com.cn All rights reserved. 魯ICP備11015305號

<style id="6n8he"><tbody id="6n8he"><noframes id="6n8he"></noframes></tbody></style>

<style id="6n8he"><mark id="6n8he"><dfn id="6n8he"></dfn></mark></style>

<source id="6n8he"></source>

<noscript id="6n8he"></noscript>