DeepSeek團(tuán)隊(duì)與北京大學(xué)聯(lián)合攻關(guān),在提升大語言模型推理效率領(lǐng)域取得重大突破。研究團(tuán)隊(duì)提出的DSpark技術(shù)框架,通過創(chuàng)新性的解碼機(jī)制,成功破解了高并發(fā)場景下模型響應(yīng)速度與生成質(zhì)量難以兼顧的行業(yè)難題。實(shí)測數(shù)據(jù)顯示,該技術(shù)使單用戶文本生成速度較現(xiàn)有主流方案提升最高達(dá)85%,相關(guān)成果已發(fā)表于最新研究論文。
傳統(tǒng)自回歸模型在生成文本時(shí),每個(gè)新token的產(chǎn)出都需要完整的前向計(jì)算過程,這種串行工作模式導(dǎo)致推理延遲隨輸出長度線性增加。特別是在實(shí)時(shí)對話等交互場景中,過長的響應(yīng)時(shí)間不僅損害用戶體驗(yàn),更造成GPU算力的閑置浪費(fèi)。研究團(tuán)隊(duì)指出,現(xiàn)有推測解碼技術(shù)雖嘗試通過草稿模型加速,但存在明顯缺陷:串行草稿模型生成延遲隨候選長度攀升,并行草稿模型則因缺乏token間依賴關(guān)系導(dǎo)致大量無效計(jì)算。
DSpark框架的核心創(chuàng)新在于構(gòu)建了"并行生成+順序校驗(yàn)"的混合架構(gòu)。其半自回歸生成機(jī)制在并行生成主干上嵌入輕量級順序模塊,該模塊通過兩種實(shí)現(xiàn)方式——馬爾可夫頭與RNN頭,動(dòng)態(tài)注入前綴依賴信息。實(shí)驗(yàn)表明,僅需兩層Transformer結(jié)構(gòu)的DSpark模型,在候選token接受長度指標(biāo)上已超越五層結(jié)構(gòu)的DFlash模型。這種設(shè)計(jì)既保持了并行生成的高效性,又通過順序校驗(yàn)確保了生成質(zhì)量。
針對傳統(tǒng)驗(yàn)證機(jī)制算力浪費(fèi)的問題,研究團(tuán)隊(duì)開發(fā)了置信度調(diào)度驗(yàn)證系統(tǒng)。該系統(tǒng)通過硬件感知前綴調(diào)度器,實(shí)時(shí)評估每個(gè)請求的成功概率與系統(tǒng)負(fù)載,動(dòng)態(tài)調(diào)整驗(yàn)證長度。具體而言,模型在每個(gè)候選位置輸出置信度分?jǐn)?shù),調(diào)度器據(jù)此為不同請求分配差異化算力資源,優(yōu)先處理預(yù)期回報(bào)高的token。在線上系統(tǒng)測試中,該機(jī)制使推理速度提升60%-85%,同時(shí)將高并發(fā)場景下的吞吐?lián)p耗控制在合理范圍。
目前,DSpark技術(shù)已深度集成至DeepSeek-V4系列模型,在真實(shí)線上流量中驗(yàn)證了其有效性。研究團(tuán)隊(duì)同步開源了模型檢查點(diǎn)與訓(xùn)練框架DeepSpec,該代碼庫包含Eagle3、DFlash和DSpark等推測解碼訓(xùn)練模塊,為學(xué)術(shù)界和產(chǎn)業(yè)界提供了完整的技術(shù)解決方案。值得注意的是,DeepSeek創(chuàng)始人梁文鋒作為核心成員參與了該項(xiàng)研究,其技術(shù)積累為項(xiàng)目突破提供了重要支撐。















