谷歌推出26B規模DiffusionGemma模型：文本生成速度飆升本地推理新利器

發布時間：2026-06-12 00:42 來源：快訊作者：陸辰風

谷歌近日推出了一款名為DiffusionGemma的實驗性開源模型，這款基于Gemma 4架構的混合專家模型（MoE）在文本生成領域展現出驚人的速度優勢。與傳統自回歸模型逐token生成的方式不同，DiffusionGemma采用擴散式輸出頭設計，能夠一次性生成256個token的文本塊，在GPU上的推理速度最高可提升4倍。

該模型總規模達26B參數，但推理時僅激活3.8B參數，經過量化后可運行在18GB顯存以內的高端消費級顯卡上。在單張NVIDIA H100顯卡上，DiffusionGemma能達到每秒1000+ tokens的輸出速度；使用NVIDIA GeForce RTX 5090時，速度仍可保持在每秒700+ tokens。這種設計特別適合需要實時交互的本地應用場景，如行內編輯、代碼補全和數學圖結構生成等任務。

雙向注意力機制是DiffusionGemma的核心創新之一。每個生成的token都能同時看到其他所有token，這種并行計算模式使模型在處理非線性文本結構時具有獨特優勢。例如在數獨求解任務中，傳統自回歸模型因依賴后續token而表現不佳，而DiffusionGemma通過多輪迭代修正機制，能夠高效完成這類需要全局視角的任務。開發者Unsloth的微調實驗顯示，經過專門訓練的DiffusionGemma可以準確解出復雜數獨謎題。

谷歌工程師指出，DiffusionGemma通過改變硬件利用方式實現了速度突破。傳統語言模型在本地運行時，GPU常因逐token生成模式處于低利用率狀態，而DiffusionGemma的批量生成機制使處理器始終保持高負載運轉。這種特性使其在單用戶低并發場景中表現尤為突出，但在云端高QPS服務中，自回歸模型通過批處理仍能保持算力效率優勢。

作為實驗性模型，DiffusionGemma在輸出質量上略遜于標準版Gemma 4。谷歌建議對質量要求嚴苛的生產環境繼續使用標準版本，同時鼓勵開發者通過微調探索模型在特定任務中的潛力。目前該模型已采用Apache 2.0許可證開源，研究人員可自由訪問其代碼和權重參數進行二次開發。

更多>同類內容