免费男人和女人牲交视频全黄,青草视频在线观看资源,日韩丰满少妇无吗视频激情内射

DeepSeek新突破：Engram模塊破解Transformer記憶難題，V4架構(gòu)或迎躍遷

時間：2026-01-14 03:45 來源：快訊作者：柳晴雪

近日，DeepSeek團隊聯(lián)合北京大學(xué)發(fā)布了一項突破性研究，提出了一種名為Engram的創(chuàng)新模塊，旨在解決Transformer架構(gòu)中長期存在的記憶瓶頸問題。該研究通過引入條件記憶機制，使模型在保持計算效率的同時顯著提升了知識存儲與檢索能力，為大語言模型（LLM）的發(fā)展開辟了新路徑。

當(dāng)前主流的稀疏模型架構(gòu)，如混合專家模型（MoE），雖通過條件計算降低了計算成本，但仍依賴大量參數(shù)模擬知識檢索過程，導(dǎo)致效率低下。研究團隊指出，Transformer缺乏原生知識查找機制，使得許多本應(yīng)通過簡單檢索完成的任務(wù)被迫依賴復(fù)雜計算，既浪費資源又限制性能。針對這一問題，Engram模塊通過將靜態(tài)模式存儲與動態(tài)計算分離，為模型提供了近似O(1)復(fù)雜度的確定性知識查找能力。

Engram的核心設(shè)計包含兩大關(guān)鍵組件：基于哈希N-gram的稀疏檢索機制和上下文感知門控系統(tǒng)。前者通過分詞器壓縮和確定性哈希函數(shù)，將局部上下文映射至預(yù)存儲的記憶條目；后者則利用動態(tài)查詢與記憶嵌入的交互，解決哈希沖突和多義詞干擾問題。實驗表明，該模塊在實體識別、固定短語匹配等任務(wù)中表現(xiàn)出高度選擇性激活，且行為可跨語言泛化。

研究團隊通過系統(tǒng)實驗驗證了Engram與MoE的互補性。他們發(fā)現(xiàn)，當(dāng)模型總參數(shù)固定時，合理分配MoE計算資源與Engram記憶容量存在最優(yōu)比例，形成獨特的"U型擴展法則"。在270億參數(shù)規(guī)模下，Engram架構(gòu)模型在嚴格等參數(shù)、等計算量條件下，較純MoE基線在知識密集型任務(wù)（MMLU、CMMLU）中提升達4%，在推理、代碼和數(shù)學(xué)任務(wù)（BBH、Humaneval、GSM8K）中提升更顯著，最高達5%。

長上下文處理能力是Engram的另一重要優(yōu)勢。通過將局部依賴建模任務(wù)卸載至靜態(tài)查找模塊，模型得以保留更多注意力資源處理全局信息。在32K上下文窗口的實驗中，Engram架構(gòu)模型在長程檢索和推理任務(wù)上展現(xiàn)出顯著優(yōu)勢，尤其在等損失和等計算量設(shè)定下，性能全面超越MoE基線，甚至在僅使用82%計算量的極端設(shè)定下仍保持競爭力。

該研究的工程價值同樣突出。Engram的確定性檢索機制支持參數(shù)存儲與計算資源的解耦，為模型優(yōu)化提供了新思路。訓(xùn)練階段可采用標(biāo)準(zhǔn)模型并行策略處理大規(guī)模嵌入表；推理階段則可通過預(yù)取和重疊策略提升效率。這種設(shè)計使得模型在擴展內(nèi)存容量時無需增加計算成本，為構(gòu)建更大參數(shù)、更高吞吐的LLM提供了可行路徑。

據(jù)悉，該研究主要由北京大學(xué)博士生Xin Cheng領(lǐng)銜完成。作為自然語言處理領(lǐng)域的新銳研究者，Xin Cheng已在NeurIPS、ACL等頂級會議發(fā)表多篇一作論文，專注于大語言模型與檢索增強生成技術(shù)研究。此次提出的Engram架構(gòu)，已被業(yè)界視為稀疏模型發(fā)展的重要里程碑，有望在下一代模型中得到廣泛應(yīng)用。

更多>同類內(nèi)容

從線上萌芽到線下扎根：抖音如何助力奢侈品	2026年AI優(yōu)化服務(wù)怎么選？十大標(biāo)桿企業(yè)測評
AI玩具：科技與情感交融，開啟玩具行業(yè)新“	現(xiàn)代汽車訂購3萬臺！波士頓動力Atlas秀后空