黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

小紅書聯(lián)合復(fù)旦推出InstanceAssemble:AI繪畫實(shí)現(xiàn)復(fù)雜布局精準(zhǔn)生成新突破

   時(shí)間:2025-12-27 07:53 來源:快訊作者:鐘景軒

AI繪畫領(lǐng)域迎來重要突破,復(fù)旦大學(xué)與小紅書聯(lián)合研發(fā)的InstanceAssemble技術(shù),在布局控制生成(Layout-to-Image)方向?qū)崿F(xiàn)關(guān)鍵性進(jìn)展。這項(xiàng)基于擴(kuò)散變換器架構(gòu)的創(chuàng)新方案,通過引入"實(shí)例拼裝注意力"機(jī)制,成功解決了復(fù)雜場景下物體布局對齊與語義匹配的難題,相關(guān)研究成果已被國際頂級學(xué)術(shù)會(huì)議NeurIPS 2025收錄。

傳統(tǒng)AI繪畫技術(shù)主要依賴文字描述生成圖像(Text-to-Image),而新一代布局控制生成技術(shù)則要求系統(tǒng)根據(jù)用戶指定的空間約束條件進(jìn)行創(chuàng)作。這些約束條件包括物體邊界框、分割掩碼或骨架圖等空間定位信息,技術(shù)難點(diǎn)在于如何確保生成圖像中的每個(gè)物體都嚴(yán)格符合預(yù)設(shè)位置,同時(shí)保持語義邏輯的連貫性?,F(xiàn)有方案普遍存在布局偏移、語義脫節(jié)或計(jì)算資源消耗過大等問題。

研究團(tuán)隊(duì)提出的InstanceAssemble技術(shù)通過創(chuàng)新機(jī)制實(shí)現(xiàn)了精準(zhǔn)控制。該系統(tǒng)采用輕量化設(shè)計(jì),僅需在現(xiàn)有模型基礎(chǔ)上增加約7100萬個(gè)參數(shù)(相當(dāng)于Stable Diffusion3-Medium模型容量的3.46%),即可完成模型適配。特別值得注意的是,當(dāng)適配Flux.1模型時(shí),額外參數(shù)需求更低至0.84%,顯著降低了技術(shù)落地門檻。

實(shí)驗(yàn)數(shù)據(jù)顯示,在包含90萬個(gè)實(shí)例的密集布局?jǐn)?shù)據(jù)集測試中,新技術(shù)展現(xiàn)出卓越性能。研究團(tuán)隊(duì)專門構(gòu)建的"Denselayout"基準(zhǔn)測試集包含5000張圖像和9萬個(gè)實(shí)例,配合全新設(shè)計(jì)的"Layout Grounding Score"評估指標(biāo),能夠精確量化生成圖像與布局指令的匹配程度。測試結(jié)果表明,即使訓(xùn)練數(shù)據(jù)僅包含稀疏布局(≤10個(gè)實(shí)例),系統(tǒng)在處理密集場景(≥10個(gè)實(shí)例)時(shí)仍能保持穩(wěn)定輸出。

這項(xiàng)突破性成果標(biāo)志著AI繪畫技術(shù)進(jìn)入精準(zhǔn)構(gòu)圖時(shí)代。用戶只需提供物體位置框和內(nèi)容描述,系統(tǒng)即可在指定區(qū)域生成符合語義的圖像元素,無論是簡單場景還是復(fù)雜構(gòu)圖都能保持高度一致性。研究團(tuán)隊(duì)表示,該技術(shù)已具備實(shí)際應(yīng)用條件,未來可廣泛應(yīng)用于數(shù)字內(nèi)容創(chuàng)作、虛擬場景構(gòu)建等領(lǐng)域,為創(chuàng)意產(chǎn)業(yè)提供新的技術(shù)支撐。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群