黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

DeepSeek新突破:Engram模塊破解Transformer記憶難題,V4架構(gòu)或迎躍遷

   時間:2026-01-14 03:45 來源:快訊作者:柳晴雪

近日,DeepSeek團隊聯(lián)合北京大學(xué)發(fā)布了一項突破性研究,提出了一種名為Engram的創(chuàng)新模塊,旨在解決Transformer架構(gòu)中長期存在的記憶瓶頸問題。該研究通過引入條件記憶機制,使模型在保持計算效率的同時顯著提升了知識存儲與檢索能力,為大語言模型(LLM)的發(fā)展開辟了新路徑。

當(dāng)前主流的稀疏模型架構(gòu),如混合專家模型(MoE),雖通過條件計算降低了計算成本,但仍依賴大量參數(shù)模擬知識檢索過程,導(dǎo)致效率低下。研究團隊指出,Transformer缺乏原生知識查找機制,使得許多本應(yīng)通過簡單檢索完成的任務(wù)被迫依賴復(fù)雜計算,既浪費資源又限制性能。針對這一問題,Engram模塊通過將靜態(tài)模式存儲與動態(tài)計算分離,為模型提供了近似O(1)復(fù)雜度的確定性知識查找能力。

Engram的核心設(shè)計包含兩大關(guān)鍵組件:基于哈希N-gram的稀疏檢索機制和上下文感知門控系統(tǒng)。前者通過分詞器壓縮和確定性哈希函數(shù),將局部上下文映射至預(yù)存儲的記憶條目;后者則利用動態(tài)查詢與記憶嵌入的交互,解決哈希沖突和多義詞干擾問題。實驗表明,該模塊在實體識別、固定短語匹配等任務(wù)中表現(xiàn)出高度選擇性激活,且行為可跨語言泛化。

研究團隊通過系統(tǒng)實驗驗證了Engram與MoE的互補性。他們發(fā)現(xiàn),當(dāng)模型總參數(shù)固定時,合理分配MoE計算資源與Engram記憶容量存在最優(yōu)比例,形成獨特的"U型擴展法則"。在270億參數(shù)規(guī)模下,Engram架構(gòu)模型在嚴格等參數(shù)、等計算量條件下,較純MoE基線在知識密集型任務(wù)(MMLU、CMMLU)中提升達4%,在推理、代碼和數(shù)學(xué)任務(wù)(BBH、Humaneval、GSM8K)中提升更顯著,最高達5%。

長上下文處理能力是Engram的另一重要優(yōu)勢。通過將局部依賴建模任務(wù)卸載至靜態(tài)查找模塊,模型得以保留更多注意力資源處理全局信息。在32K上下文窗口的實驗中,Engram架構(gòu)模型在長程檢索和推理任務(wù)上展現(xiàn)出顯著優(yōu)勢,尤其在等損失和等計算量設(shè)定下,性能全面超越MoE基線,甚至在僅使用82%計算量的極端設(shè)定下仍保持競爭力。

該研究的工程價值同樣突出。Engram的確定性檢索機制支持參數(shù)存儲與計算資源的解耦,為模型優(yōu)化提供了新思路。訓(xùn)練階段可采用標(biāo)準(zhǔn)模型并行策略處理大規(guī)模嵌入表;推理階段則可通過預(yù)取和重疊策略提升效率。這種設(shè)計使得模型在擴展內(nèi)存容量時無需增加計算成本,為構(gòu)建更大參數(shù)、更高吞吐的LLM提供了可行路徑。

據(jù)悉,該研究主要由北京大學(xué)博士生Xin Cheng領(lǐng)銜完成。作為自然語言處理領(lǐng)域的新銳研究者,Xin Cheng已在NeurIPS、ACL等頂級會議發(fā)表多篇一作論文,專注于大語言模型與檢索增強生成技術(shù)研究。此次提出的Engram架構(gòu),已被業(yè)界視為稀疏模型發(fā)展的重要里程碑,有望在下一代模型中得到廣泛應(yīng)用。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群