谷歌近日發布了一款名為DiffusionGemma的全新開放AI模型,該模型基于文本擴散機制構建,在本地推理速度上實現了顯著突破,較傳統自回歸模型提升達4倍。這一成果標志著擴散架構在大語言模型領域的應用邁出重要一步,為低帶寬計算環境下的高效推理提供了新方案。
傳統自回歸模型(如GPT、Gemini)采用從左到右逐個生成Tokens的方式,在云端批處理場景中效率較高,但在本地設備上受內存帶寬限制,常出現計算資源浪費問題。DiffusionGemma則通過擴散機制實現并行處理——模型從噪聲中逐步去噪,同時優化所有Tokens的生成質量,這種設計使其在本地低帶寬環境下展現出顯著優勢。
性能測試數據顯示,DiffusionGemma在代碼生成任務中表現亮眼:LiveCodeBench得分30.9%,BigCodeBench達45.4%,Humaneval更是高達89.6%,與Gemini 2.0 Flash-Lite形成有力競爭。數學推理能力尤為突出,在AIME 2025基準測試中取得23.3%的成績,超越對比模型3.3個百分點,驗證了擴散架構在復雜推理任務中的潛力。
該模型在生成效率方面同樣表現卓越。采樣速度達每秒1479個Tokens,開銷僅0.84秒,且支持迭代優化功能,可在生成過程中主動修正錯誤,確保輸出結果的穩定性與一致性。開源方面,DiffusionGemma采用Apache 2.0許可證,用戶可通過Hugging Face平臺下載模型權重,其能力與Gemma 4系列模型相當,但推理效率顯著更高。
不過測試也暴露出部分短板:在科學推理GPQA Diamond基準中僅得40.4%,明顯低于對比模型的56.5%;推理能力BIG-Bench Extra Hard測試得分15.0%,同樣落后于21.0%的行業水平。這表明模型在特定領域的優化仍有提升空間。
英偉達官方測試進一步證實了硬件協同優勢:在單塊H100 GPU上,DiffusionGemma實現每秒1000個Tokens的生成速度;DGX Spark平臺達每秒150個Tokens;DGX Station更突破至每秒2000個Tokens,約為同等條件下自回歸模型的4倍。這種性能提升主要得益于擴散設計對Tensor Core并行計算能力的充分釋放,為AI模型在邊緣設備上的部署開辟了新路徑。












