DeepSeek聯合北大發布新論文梁文鋒參與推理加速框架DSpark提升大模型速度

發布時間：2026-06-28 21:14 來源：快訊作者：鄭佳

當行業熱議大模型智能水平時，DeepSeek選擇將技術突破口對準推理效率這一關鍵痛點。這家人工智能企業聯合北京大學研發的DSpark框架，通過創新性的半自回歸架構，成功破解了大語言模型在高并發場景下的性能瓶頸。

在GitHub最新發布的論文中，研究團隊揭示了現有技術路線的局限性。傳統自回歸模型因逐詞生成機制導致GPU利用率低下，而并行草稿模型雖提升吞吐量卻犧牲了生成質量。更關鍵的是，現有方案均未建立動態負載調節機制，無法適應實時對話等低延遲場景的復雜需求。

DSpark框架的創新之處在于構建了混合計算架構。其核心模塊包含兩種實現路徑：馬爾可夫頭通過捕捉前一詞元信息實現局部依賴，RNN頭則通過循環狀態累積完整上下文。這種設計既保留了并行計算的高效性，又通過輕量級串行模塊確保語義連貫性。實驗數據顯示，兩層Transformer結構的DSpark在生成長度指標上已超越五層DFlash模型。

技術突破迅速轉化為實際應用。在DeepSeek-V4在線服務系統中，DSpark框架展現出顯著優勢：在維持相同吞吐量的前提下，用戶端文本生成速度提升60%-85%。這種提升在智能客服、多輪對話等場景中尤為明顯，有效縮短了用戶等待時間。

開源社區同步迎來重要資源更新。研究團隊不僅開放了DSpark模型權重，還發布了基于算法驅動的訓練代碼庫DeepSpec。第三方測試顯示，該框架在阿里Qwen3系列模型上表現突出：4B、8B、14B版本的可接受詞元長度分別提升30.9%、26.7%、30%，相較并行草稿模型也有16%-18%的改進。

值得關注的是，DeepSeek創始人梁文鋒直接參與了這個跨學科項目。這種產學研深度合作模式，為框架在工程實現與理論創新之間找到了平衡點。隨著DSpark代碼的全面開源，大模型推理效率的優化或將進入新的競爭階段。

更多>同類內容