强伦姧人妻三上悠亚中文字幕,日韩乱码一区二区蜜桃

黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

手機(jī)版

虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

阿里智能引擎團(tuán)隊(duì)突破AI生圖速度極限：2步生成2K高清圖，5秒即現(xiàn)四張佳作

時(shí)間：2026-01-30 22:25 來(lái)源：天脈網(wǎng)作者：鐘景軒

在AI圖像生成領(lǐng)域，擴(kuò)散模型因其出色的生成效果備受關(guān)注，但傳統(tǒng)模型生成速度慢的問(wèn)題一直困擾著用戶。如今，阿里智能引擎團(tuán)隊(duì)帶來(lái)了一項(xiàng)重大突破——僅需5秒，就能生成4張2K級(jí)高清大圖，將圖像生成效率提升到了全新高度。

針對(duì)Qwen最新開(kāi)源模型，該團(tuán)隊(duì)實(shí)現(xiàn)了SOTA壓縮水平的巨大飛躍，將原本需要80 - 100步前向計(jì)算才能完成的圖像生成，驟降至僅需2步，速度整整提升了40倍。以往像Qwen - Image生成一張圖片需要近一分鐘，現(xiàn)在眨眼間就能完成，大大節(jié)省了用戶的時(shí)間。

這一成果的背后，是團(tuán)隊(duì)對(duì)傳統(tǒng)蒸餾方案的深入研究和創(chuàng)新改進(jìn)。早期的軌跡蒸餾方案，如Progressive Distillation和Consistency Distillation，主要思想是讓蒸餾后的學(xué)生模型（student model）模仿原模型（teacher model）在多步生成的路徑。但在實(shí)踐中，這類(lèi)方法在低迭代步數(shù)下難以實(shí)現(xiàn)高質(zhì)量生成，生成的圖像模糊，尤其是對(duì)于一些細(xì)節(jié)部分，如文字、人物五官等，因占比低而學(xué)習(xí)不充分，導(dǎo)致學(xué)生模型的細(xì)節(jié)出現(xiàn)明顯扭曲。這是因?yàn)檐壽E蒸餾直接對(duì)學(xué)生模型的生成樣本做約束，對(duì)所有圖像patch一視同仁，沒(méi)有突出細(xì)節(jié)部分的重要性。

為了解決這一問(wèn)題，團(tuán)隊(duì)將目光投向了基于概率空間的蒸餾方案。近期，這類(lèi)方案在較少步數(shù)場(chǎng)景（4 - 8步）取得了巨大成功，其中DMD2算法最具影響力。DMD2將約束從樣本空間轉(zhuǎn)換到了概率空間，其Loss設(shè)計(jì)為典型的Reverse - KL蒸餾Loss。這種設(shè)計(jì)有一個(gè)顯著特性：當(dāng)學(xué)生模型生成的圖片不符合真實(shí)圖片分布時(shí)，Loss會(huì)爆炸。因此，DMD2算法的本質(zhì)是讓學(xué)生模型自己生成圖片，然后由教師模型指導(dǎo)哪里不對(duì)，而不是直接告訴學(xué)生模型應(yīng)該模仿什么。這種設(shè)計(jì)顯著提升了生成圖片的細(xì)節(jié)性和合理性，成為當(dāng)下擴(kuò)散步數(shù)蒸餾的主要策略。

然而，Reverse - KL也存在一些問(wèn)題，如mode - collapse和分布過(guò)于銳化，具體表現(xiàn)為多樣性降低、飽和度增加、形體增加等，在2步蒸餾的設(shè)定下這些問(wèn)題尤為突出。為了緩解分布退化問(wèn)題，團(tuán)隊(duì)使用PCM蒸餾進(jìn)行模型熱啟動(dòng)，給模型一個(gè)更合理的初始化。實(shí)驗(yàn)表明，熱啟動(dòng)后的模型的形體扭曲問(wèn)題得到明顯改善。

雖然DMD2極大提升了方案的普適性，但它也有局限，即學(xué)生模型永遠(yuǎn)學(xué)習(xí)教師模型的生成分布，無(wú)法超越教師模型。同時(shí)，由于loss設(shè)計(jì)的問(wèn)題，DMD2蒸餾在高質(zhì)量細(xì)節(jié)紋理（如苔蘚、動(dòng)物毛發(fā)等）上生成的效果往往不盡如人意。為了增強(qiáng)2步學(xué)生模型在細(xì)節(jié)上的表現(xiàn)能力，團(tuán)隊(duì)引入了對(duì)抗學(xué)習(xí)（GAN）來(lái)進(jìn)一步提升監(jiān)督效果。

GAN的Loss包括生成Loss和判別Loss，生成Loss是讓生成圖騙過(guò)判別器，判別Loss是區(qū)分真假圖。簡(jiǎn)單來(lái)說(shuō)，對(duì)抗訓(xùn)練一方面需要判別器盡可能判定學(xué)生模型生成的圖片為假，另一方面需要學(xué)生模型盡可能欺騙判別器。為了提升對(duì)抗訓(xùn)練的穩(wěn)定性和效果，團(tuán)隊(duì)做了多項(xiàng)改進(jìn)，如采用真實(shí)數(shù)據(jù)混合策略，按固定比例混合高質(zhì)量真實(shí)數(shù)據(jù)和教師生成圖，提升泛化度和訓(xùn)練穩(wěn)定性；引入額外的DINO模型作為特征提取器，提供更魯棒的特征表示；增加對(duì)抗訓(xùn)練在loss中的占比。經(jīng)實(shí)驗(yàn)驗(yàn)證，增加對(duì)抗訓(xùn)練后，學(xué)生模型的畫(huà)面質(zhì)感和細(xì)節(jié)表現(xiàn)發(fā)生顯著提升。

目前，團(tuán)隊(duì)已將相應(yīng)的Checkpoint發(fā)布至HuggingFace和ModelScope平臺(tái)，開(kāi)發(fā)者可下載體驗(yàn)。同時(shí)，該模型已經(jīng)集成到嗚哩AI平臺(tái)上，支持調(diào)用。盡管在大多數(shù)場(chǎng)景下Wuli - Qwen - Image - Turbo能夠和原模型比肩，但在一些復(fù)雜場(chǎng)景下，受限于去噪步數(shù)，仍存在可改進(jìn)空間。團(tuán)隊(duì)表示，在后續(xù)的版本中將會(huì)持續(xù)發(fā)布速度更快、效果更好的生成模型，并迭代更多擴(kuò)散加速技術(shù)，開(kāi)源模型權(quán)重。

更多>同類(lèi)內(nèi)容

虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體 - 聚合優(yōu)質(zhì)的創(chuàng)新信息與人群,捕獲精選、深度、犀利的商業(yè)科技資訊，不錯(cuò)過(guò)互聯(lián)網(wǎng)的每個(gè)重要時(shí)刻。
合作微信：netspread，添加時(shí)務(wù)必注明虎科技
Copyright ? 2010-2021 HUKEJI.COM - All rights reserved. 魯ICP備11015305號(hào)-21

微信掃一掃
加微信拉群
電動(dòng)汽車(chē)群
科技數(shù)碼群

阿里智能引擎團(tuán)隊(duì)突破AI生圖速度極限：2步	1月29日午間主力資金流向揭曉：藍(lán)色光標(biāo)領(lǐng)
TikTok成外貿(mào)B2B營(yíng)銷(xiāo)新藍(lán)海，專業(yè)策略助力	抖音店鋪體驗(yàn)分提升全攻略：從商品到服務(wù)，