av资源在线中文天堂,日本伊人久久综合网,欧美黄片在线免费观看

小紅書聯(lián)合復(fù)旦推出InstanceAssemble：AI繪畫實(shí)現(xiàn)復(fù)雜布局精準(zhǔn)生成新突破

時(shí)間：2025-12-27 07:53 來源：快訊作者：鐘景軒

AI繪畫領(lǐng)域迎來重要突破，復(fù)旦大學(xué)與小紅書聯(lián)合研發(fā)的InstanceAssemble技術(shù)，在布局控制生成（Layout-to-Image）方向?qū)崿F(xiàn)關(guān)鍵性進(jìn)展。這項(xiàng)基于擴(kuò)散變換器架構(gòu)的創(chuàng)新方案，通過引入"實(shí)例拼裝注意力"機(jī)制，成功解決了復(fù)雜場景下物體布局對齊與語義匹配的難題，相關(guān)研究成果已被國際頂級學(xué)術(shù)會(huì)議NeurIPS 2025收錄。

傳統(tǒng)AI繪畫技術(shù)主要依賴文字描述生成圖像（Text-to-Image），而新一代布局控制生成技術(shù)則要求系統(tǒng)根據(jù)用戶指定的空間約束條件進(jìn)行創(chuàng)作。這些約束條件包括物體邊界框、分割掩碼或骨架圖等空間定位信息，技術(shù)難點(diǎn)在于如何確保生成圖像中的每個(gè)物體都嚴(yán)格符合預(yù)設(shè)位置，同時(shí)保持語義邏輯的連貫性?，F(xiàn)有方案普遍存在布局偏移、語義脫節(jié)或計(jì)算資源消耗過大等問題。

研究團(tuán)隊(duì)提出的InstanceAssemble技術(shù)通過創(chuàng)新機(jī)制實(shí)現(xiàn)了精準(zhǔn)控制。該系統(tǒng)采用輕量化設(shè)計(jì)，僅需在現(xiàn)有模型基礎(chǔ)上增加約7100萬個(gè)參數(shù)（相當(dāng)于Stable Diffusion3-Medium模型容量的3.46%），即可完成模型適配。特別值得注意的是，當(dāng)適配Flux.1模型時(shí)，額外參數(shù)需求更低至0.84%，顯著降低了技術(shù)落地門檻。

實(shí)驗(yàn)數(shù)據(jù)顯示，在包含90萬個(gè)實(shí)例的密集布局?jǐn)?shù)據(jù)集測試中，新技術(shù)展現(xiàn)出卓越性能。研究團(tuán)隊(duì)專門構(gòu)建的"Denselayout"基準(zhǔn)測試集包含5000張圖像和9萬個(gè)實(shí)例，配合全新設(shè)計(jì)的"Layout Grounding Score"評估指標(biāo)，能夠精確量化生成圖像與布局指令的匹配程度。測試結(jié)果表明，即使訓(xùn)練數(shù)據(jù)僅包含稀疏布局（≤10個(gè)實(shí)例），系統(tǒng)在處理密集場景（≥10個(gè)實(shí)例）時(shí)仍能保持穩(wěn)定輸出。

這項(xiàng)突破性成果標(biāo)志著AI繪畫技術(shù)進(jìn)入精準(zhǔn)構(gòu)圖時(shí)代。用戶只需提供物體位置框和內(nèi)容描述，系統(tǒng)即可在指定區(qū)域生成符合語義的圖像元素，無論是簡單場景還是復(fù)雜構(gòu)圖都能保持高度一致性。研究團(tuán)隊(duì)表示，該技術(shù)已具備實(shí)際應(yīng)用條件，未來可廣泛應(yīng)用于數(shù)字內(nèi)容創(chuàng)作、虛擬場景構(gòu)建等領(lǐng)域，為創(chuàng)意產(chǎn)業(yè)提供新的技術(shù)支撐。

更多>同類內(nèi)容

傳京東或收購叮咚買菜雙方暫未回應(yīng) 叮咚買	2025年中國防火墻行業(yè)格局：頭部企業(yè)領(lǐng)跑，
AI眼鏡賽道激戰(zhàn)正酣：巨頭入場難掩高退貨率	京東內(nèi)測“京東AI購”APP：智能體助力購物