谷歌近日推出了一款名為DiffusionGemma的實驗性開源模型,這款基于Gemma 4架構的混合專家模型(MoE)在文本生成領域展現出驚人的速度優勢。與傳統自回歸模型逐token生成的方式不同,DiffusionGemma采用擴散式輸出頭設計,能夠一次性生成256個token的文本塊,在GPU上的推理速度最高可提升4倍。
該模型總規模達26B參數,但推理時僅激活3.8B參數,經過量化后可運行在18GB顯存以內的高端消費級顯卡上。在單張NVIDIA H100顯卡上,DiffusionGemma能達到每秒1000+ tokens的輸出速度;使用NVIDIA GeForce RTX 5090時,速度仍可保持在每秒700+ tokens。這種設計特別適合需要實時交互的本地應用場景,如行內編輯、代碼補全和數學圖結構生成等任務。
雙向注意力機制是DiffusionGemma的核心創新之一。每個生成的token都能同時看到其他所有token,這種并行計算模式使模型在處理非線性文本結構時具有獨特優勢。例如在數獨求解任務中,傳統自回歸模型因依賴后續token而表現不佳,而DiffusionGemma通過多輪迭代修正機制,能夠高效完成這類需要全局視角的任務。開發者Unsloth的微調實驗顯示,經過專門訓練的DiffusionGemma可以準確解出復雜數獨謎題。
谷歌工程師指出,DiffusionGemma通過改變硬件利用方式實現了速度突破。傳統語言模型在本地運行時,GPU常因逐token生成模式處于低利用率狀態,而DiffusionGemma的批量生成機制使處理器始終保持高負載運轉。這種特性使其在單用戶低并發場景中表現尤為突出,但在云端高QPS服務中,自回歸模型通過批處理仍能保持算力效率優勢。
作為實驗性模型,DiffusionGemma在輸出質量上略遜于標準版Gemma 4。谷歌建議對質量要求嚴苛的生產環境繼續使用標準版本,同時鼓勵開發者通過微調探索模型在特定任務中的潛力。目前該模型已采用Apache 2.0許可證開源,研究人員可自由訪問其代碼和權重參數進行二次開發。












