黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

阿里智能引擎團(tuán)隊(duì)突破AI生圖速度極限:2步生成2K高清圖,5秒即現(xiàn)四張佳作

   時(shí)間:2026-01-30 22:25 來(lái)源:天脈網(wǎng)作者:鐘景軒

在AI圖像生成領(lǐng)域,擴(kuò)散模型因其出色的生成效果備受關(guān)注,但傳統(tǒng)模型生成速度慢的問(wèn)題一直困擾著用戶。如今,阿里智能引擎團(tuán)隊(duì)帶來(lái)了一項(xiàng)重大突破——僅需5秒,就能生成4張2K級(jí)高清大圖,將圖像生成效率提升到了全新高度。

針對(duì)Qwen最新開(kāi)源模型,該團(tuán)隊(duì)實(shí)現(xiàn)了SOTA壓縮水平的巨大飛躍,將原本需要80 - 100步前向計(jì)算才能完成的圖像生成,驟降至僅需2步,速度整整提升了40倍。以往像Qwen - Image生成一張圖片需要近一分鐘,現(xiàn)在眨眼間就能完成,大大節(jié)省了用戶的時(shí)間。

這一成果的背后,是團(tuán)隊(duì)對(duì)傳統(tǒng)蒸餾方案的深入研究和創(chuàng)新改進(jìn)。早期的軌跡蒸餾方案,如Progressive Distillation和Consistency Distillation,主要思想是讓蒸餾后的學(xué)生模型(student model)模仿原模型(teacher model)在多步生成的路徑。但在實(shí)踐中,這類(lèi)方法在低迭代步數(shù)下難以實(shí)現(xiàn)高質(zhì)量生成,生成的圖像模糊,尤其是對(duì)于一些細(xì)節(jié)部分,如文字、人物五官等,因占比低而學(xué)習(xí)不充分,導(dǎo)致學(xué)生模型的細(xì)節(jié)出現(xiàn)明顯扭曲。這是因?yàn)檐壽E蒸餾直接對(duì)學(xué)生模型的生成樣本做約束,對(duì)所有圖像patch一視同仁,沒(méi)有突出細(xì)節(jié)部分的重要性。

為了解決這一問(wèn)題,團(tuán)隊(duì)將目光投向了基于概率空間的蒸餾方案。近期,這類(lèi)方案在較少步數(shù)場(chǎng)景(4 - 8步)取得了巨大成功,其中DMD2算法最具影響力。DMD2將約束從樣本空間轉(zhuǎn)換到了概率空間,其Loss設(shè)計(jì)為典型的Reverse - KL蒸餾Loss。這種設(shè)計(jì)有一個(gè)顯著特性:當(dāng)學(xué)生模型生成的圖片不符合真實(shí)圖片分布時(shí),Loss會(huì)爆炸。因此,DMD2算法的本質(zhì)是讓學(xué)生模型自己生成圖片,然后由教師模型指導(dǎo)哪里不對(duì),而不是直接告訴學(xué)生模型應(yīng)該模仿什么。這種設(shè)計(jì)顯著提升了生成圖片的細(xì)節(jié)性和合理性,成為當(dāng)下擴(kuò)散步數(shù)蒸餾的主要策略。

然而,Reverse - KL也存在一些問(wèn)題,如mode - collapse和分布過(guò)于銳化,具體表現(xiàn)為多樣性降低、飽和度增加、形體增加等,在2步蒸餾的設(shè)定下這些問(wèn)題尤為突出。為了緩解分布退化問(wèn)題,團(tuán)隊(duì)使用PCM蒸餾進(jìn)行模型熱啟動(dòng),給模型一個(gè)更合理的初始化。實(shí)驗(yàn)表明,熱啟動(dòng)后的模型的形體扭曲問(wèn)題得到明顯改善。

雖然DMD2極大提升了方案的普適性,但它也有局限,即學(xué)生模型永遠(yuǎn)學(xué)習(xí)教師模型的生成分布,無(wú)法超越教師模型。同時(shí),由于loss設(shè)計(jì)的問(wèn)題,DMD2蒸餾在高質(zhì)量細(xì)節(jié)紋理(如苔蘚、動(dòng)物毛發(fā)等)上生成的效果往往不盡如人意。為了增強(qiáng)2步學(xué)生模型在細(xì)節(jié)上的表現(xiàn)能力,團(tuán)隊(duì)引入了對(duì)抗學(xué)習(xí)(GAN)來(lái)進(jìn)一步提升監(jiān)督效果。

GAN的Loss包括生成Loss和判別Loss,生成Loss是讓生成圖騙過(guò)判別器,判別Loss是區(qū)分真假圖。簡(jiǎn)單來(lái)說(shuō),對(duì)抗訓(xùn)練一方面需要判別器盡可能判定學(xué)生模型生成的圖片為假,另一方面需要學(xué)生模型盡可能欺騙判別器。為了提升對(duì)抗訓(xùn)練的穩(wěn)定性和效果,團(tuán)隊(duì)做了多項(xiàng)改進(jìn),如采用真實(shí)數(shù)據(jù)混合策略,按固定比例混合高質(zhì)量真實(shí)數(shù)據(jù)和教師生成圖,提升泛化度和訓(xùn)練穩(wěn)定性;引入額外的DINO模型作為特征提取器,提供更魯棒的特征表示;增加對(duì)抗訓(xùn)練在loss中的占比。經(jīng)實(shí)驗(yàn)驗(yàn)證,增加對(duì)抗訓(xùn)練后,學(xué)生模型的畫(huà)面質(zhì)感和細(xì)節(jié)表現(xiàn)發(fā)生顯著提升。

目前,團(tuán)隊(duì)已將相應(yīng)的Checkpoint發(fā)布至HuggingFace和ModelScope平臺(tái),開(kāi)發(fā)者可下載體驗(yàn)。同時(shí),該模型已經(jīng)集成到嗚哩AI平臺(tái)上,支持調(diào)用。盡管在大多數(shù)場(chǎng)景下Wuli - Qwen - Image - Turbo能夠和原模型比肩,但在一些復(fù)雜場(chǎng)景下,受限于去噪步數(shù),仍存在可改進(jìn)空間。團(tuán)隊(duì)表示,在后續(xù)的版本中將會(huì)持續(xù)發(fā)布速度更快、效果更好的生成模型,并迭代更多擴(kuò)散加速技術(shù),開(kāi)源模型權(quán)重。

 
 
更多>同類(lèi)內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車(chē)群
科技數(shù)碼群