DeepSeek聯(lián)合北大發(fā)布DSpark框架：突破推理瓶頸速度提升最高達(dá)85%

發(fā)布時(shí)間：2026-06-28 11:58 來源：互聯(lián)網(wǎng) 作者：朱天宇

DeepSeek團(tuán)隊(duì)與北京大學(xué)聯(lián)合攻關(guān)，在提升大語言模型推理效率領(lǐng)域取得重大突破。研究團(tuán)隊(duì)提出的DSpark技術(shù)框架，通過創(chuàng)新性的解碼機(jī)制，成功破解了高并發(fā)場景下模型響應(yīng)速度與生成質(zhì)量難以兼顧的行業(yè)難題。實(shí)測數(shù)據(jù)顯示，該技術(shù)使單用戶文本生成速度較現(xiàn)有主流方案提升最高達(dá)85%，相關(guān)成果已發(fā)表于最新研究論文。

傳統(tǒng)自回歸模型在生成文本時(shí)，每個(gè)新token的產(chǎn)出都需要完整的前向計(jì)算過程，這種串行工作模式導(dǎo)致推理延遲隨輸出長度線性增加。特別是在實(shí)時(shí)對話等交互場景中，過長的響應(yīng)時(shí)間不僅損害用戶體驗(yàn)，更造成GPU算力的閑置浪費(fèi)。研究團(tuán)隊(duì)指出，現(xiàn)有推測解碼技術(shù)雖嘗試通過草稿模型加速，但存在明顯缺陷：串行草稿模型生成延遲隨候選長度攀升，并行草稿模型則因缺乏token間依賴關(guān)系導(dǎo)致大量無效計(jì)算。

DSpark框架的核心創(chuàng)新在于構(gòu)建了"并行生成+順序校驗(yàn)"的混合架構(gòu)。其半自回歸生成機(jī)制在并行生成主干上嵌入輕量級順序模塊，該模塊通過兩種實(shí)現(xiàn)方式——馬爾可夫頭與RNN頭，動(dòng)態(tài)注入前綴依賴信息。實(shí)驗(yàn)表明，僅需兩層Transformer結(jié)構(gòu)的DSpark模型，在候選token接受長度指標(biāo)上已超越五層結(jié)構(gòu)的DFlash模型。這種設(shè)計(jì)既保持了并行生成的高效性，又通過順序校驗(yàn)確保了生成質(zhì)量。

針對傳統(tǒng)驗(yàn)證機(jī)制算力浪費(fèi)的問題，研究團(tuán)隊(duì)開發(fā)了置信度調(diào)度驗(yàn)證系統(tǒng)。該系統(tǒng)通過硬件感知前綴調(diào)度器，實(shí)時(shí)評估每個(gè)請求的成功概率與系統(tǒng)負(fù)載，動(dòng)態(tài)調(diào)整驗(yàn)證長度。具體而言，模型在每個(gè)候選位置輸出置信度分?jǐn)?shù)，調(diào)度器據(jù)此為不同請求分配差異化算力資源，優(yōu)先處理預(yù)期回報(bào)高的token。在線上系統(tǒng)測試中，該機(jī)制使推理速度提升60%-85%，同時(shí)將高并發(fā)場景下的吞吐?lián)p耗控制在合理范圍。

目前，DSpark技術(shù)已深度集成至DeepSeek-V4系列模型，在真實(shí)線上流量中驗(yàn)證了其有效性。研究團(tuán)隊(duì)同步開源了模型檢查點(diǎn)與訓(xùn)練框架DeepSpec，該代碼庫包含Eagle3、DFlash和DSpark等推測解碼訓(xùn)練模塊，為學(xué)術(shù)界和產(chǎn)業(yè)界提供了完整的技術(shù)解決方案。值得注意的是，DeepSeek創(chuàng)始人梁文鋒作為核心成員參與了該項(xiàng)研究，其技術(shù)積累為項(xiàng)目突破提供了重要支撐。

更多>同類內(nèi)容