谷歌發布DiffusionGemma文本擴散模型：本地推理提速性能與開源優勢并存

發布時間：2026-06-11 14:53 來源：快訊作者：陸辰風

谷歌近日發布了一款名為DiffusionGemma的全新開放AI模型，該模型基于文本擴散機制構建，在本地推理速度上實現了顯著突破，較傳統自回歸模型提升達4倍。這一成果標志著擴散架構在大語言模型領域的應用邁出重要一步，為低帶寬計算環境下的高效推理提供了新方案。

傳統自回歸模型（如GPT、Gemini）采用從左到右逐個生成Tokens的方式，在云端批處理場景中效率較高，但在本地設備上受內存帶寬限制，常出現計算資源浪費問題。DiffusionGemma則通過擴散機制實現并行處理——模型從噪聲中逐步去噪，同時優化所有Tokens的生成質量，這種設計使其在本地低帶寬環境下展現出顯著優勢。

性能測試數據顯示，DiffusionGemma在代碼生成任務中表現亮眼：LiveCodeBench得分30.9%，BigCodeBench達45.4%，Humaneval更是高達89.6%，與Gemini 2.0 Flash-Lite形成有力競爭。數學推理能力尤為突出，在AIME 2025基準測試中取得23.3%的成績，超越對比模型3.3個百分點，驗證了擴散架構在復雜推理任務中的潛力。

該模型在生成效率方面同樣表現卓越。采樣速度達每秒1479個Tokens，開銷僅0.84秒，且支持迭代優化功能，可在生成過程中主動修正錯誤，確保輸出結果的穩定性與一致性。開源方面，DiffusionGemma采用Apache 2.0許可證，用戶可通過Hugging Face平臺下載模型權重，其能力與Gemma 4系列模型相當，但推理效率顯著更高。

不過測試也暴露出部分短板：在科學推理GPQA Diamond基準中僅得40.4%，明顯低于對比模型的56.5%；推理能力BIG-Bench Extra Hard測試得分15.0%，同樣落后于21.0%的行業水平。這表明模型在特定領域的優化仍有提升空間。

英偉達官方測試進一步證實了硬件協同優勢：在單塊H100 GPU上，DiffusionGemma實現每秒1000個Tokens的生成速度；DGX Spark平臺達每秒150個Tokens；DGX Station更突破至每秒2000個Tokens，約為同等條件下自回歸模型的4倍。這種性能提升主要得益于擴散設計對Tensor Core并行計算能力的充分釋放，為AI模型在邊緣設備上的部署開辟了新路徑。

更多>同類內容