大模型“瘦身”新突破：NSA機制讓注意力“聰明聚焦”

發布時間：2026-05-15 09:27 來源：快訊作者：馮璃月

在人工智能領域，大模型的發展始終面臨著一個關鍵挑戰：如何在處理超長文本時，既保持強大的“記憶力”又能實現高效的“思考速度”。最近，DeepSeek團隊發布的一篇新論文引發了廣泛關注，其提出的“原生稀疏注意力”（Native Sparse Attention，簡稱NSA）機制，為解決這一難題提供了新的思路，甚至可能成為推動大模型走向更廣泛應用的關鍵突破。

長期以來，學術界和工業界都在探索讓大模型更高效處理長文本的方法。學術界提出了許多“訓練后免費方案”，但這些方法往往缺乏靈活性，難以適應復雜多變的實際應用場景。而工業界此次選擇了一條更為“硬核”的道路——從預訓練階段就開始優化模型的注意力機制。幾乎在同一時間，知名公司Kimi也公布了名為MoBA的類似研究，兩篇論文不約而同地聚焦于預訓練階段的注意力調整，這一現象背后，是預訓練所需的高昂成本和巨大算力需求，這通常是只有行業巨頭才敢涉足的領域。

NSA注意力機制之所以備受矚目，關鍵在于其獨特的設計理念。它就像一位聰明的指揮官，同時指揮三支小分隊處理海量信息，而非讓模型逐字逐句地審視。這三支小分隊各有分工，協同作戰。

第一支是壓縮分隊（Token Compression）。其作用類似于對一本書進行章節總結，將連續的文本切成小塊，然后用可學習的小型神經網絡將這些小塊的信息壓縮成“代表”。這些“代表”攜帶了整個小塊的精髓，參與后續的注意力計算。這種方法借鑒了之前SeerAttention等工作的思路，但通過引入可學習參數，讓模型能夠自主學會如何更好地“概括”信息。

第二支是精選分隊（Token Selection），這是NSA的主力部隊。它需要在茫茫“詞海”中快速挑選出當前最需要關注的文本塊。NSA采用了“兩步走”策略：首先，利用壓縮后的“塊代表”和當前問題（Query）估算每個塊的“潛在重要性得分”；然后，根據得分選拔出得分最高的Top K個塊。這些被選中的塊會派出原始的、完整的“鍵”進行精確的注意力計算。這種“查詢感知”的選擇方式，確保了模型的選擇完全基于當前思考的問題，避免了早期方法因簡單丟棄歷史信息而導致的錯誤，比如在多輪對話中遺忘關鍵約定。

第三支是近衛分隊（Window Attention），負責保障“近期記憶”的安全。它只關注最近出現的一小段文本，就像一個滑動窗口，確保模型不會忘記剛剛說過的話。這一設計最早源于Longformer，后來被StreamingLLM等工作改進。在NSA中，近衛分隊的規則被巧妙融入精選分隊，論文規定第一個塊（通常是最近的上下文）會被固定選中。

這三支小分隊的計算結果最終會匯聚到一個“決策門”，由它根據實際情況決定各路結果的貢獻比例，然后加權求和，得到最終的注意力輸出。NSA的核心目標是大幅減少解碼階段需要從顯存加載的KV Cache數據量。需要注意的是，NSA節省的并非顯存本身，而是數據從顯存到計算核心的搬運帶寬。在現代大模型推理中，尤其是生成文本時，計算往往不是瓶頸，數據搬運才是最大的拖累。NSA通過智能選擇，只加載最需要的數據，有效緩解了帶寬壓力，提高了計算效率。

NSA真正引發討論的“亮點”，在于其“原生可訓練”（Native Trainable）的特性。過去的稀疏注意力方法大多是“訓練后免費附加”的方案，研究人員在模型訓練完成后，通過設計啟發式規則來決定在推理時丟棄哪些信息。這些方法雖然巧妙，但模型本身并未為這種“選擇性失憶”做好準備。而NSA將稀疏選擇機制直接融入模型訓練的全過程，讓模型在預訓練階段就學習如何高效分配注意力。這種“原生”訓練不僅在推理時能提高速度，在反向傳播過程中也能加速模型訓練和參數更新。這意味著稀疏注意力不再僅僅是推理加速工具，而是可以成為模型架構的一部分，甚至有可能讓“稀疏”模型在性能上超越“全注意力”模型。

從“可訓練”的角度審視NSA的三分支設計，可以發現“壓縮分隊”的存在可能正是為了實現“可訓練性”。由于“精選”和“滑窗”本質上都是丟棄信息，梯度無法有效回溯到被丟棄的原始鍵值上。而“壓縮分隊”通過可學習的線性層保留了信息的濃縮形式，使訓練信號能夠通過“壓縮器”傳遞回去，間接指導“精選分隊”做出更好的選擇。“近衛分隊”則可能扮演著訓練穩定器的角色，確保模型不會丟失最近的上下文，為學習過程提供可靠的錨點。

與NSA相比，Kimi的MoBA方案既沒有采用三分支設計，也沒有在選取過程中使用復雜的可學習層，僅通過簡單的平均池化和預訓練就實現了稀疏選擇的特性。這引發了人們的思考：實現“可訓練的稀疏注意力”，是否存在更簡潔、更優雅的架構方案？NSA的三分支設計是必經之路，還是一種有效的實現方式？這為后續研究留下了開放而有趣的問題。

這篇論文體現了濃厚的工業界風格：直面工程實踐中的核心瓶頸，追求端到端的可訓練方案以確保最優性能，設計兼顧算法創新與硬件友好。在長文本處理這一重要賽道上，工業界憑借強大的算力資源、工程整合能力和對產品性能的執著追求，正在快速追趕并形成獨特優勢。學術界在思想啟蒙和算法原型上領先一步，而工業界則擅長將這些思想打磨成在實際系統中高效運行的工具。

長文本上下文能力的重要性遠不止于讓模型閱讀更長的文章。隨著“思維鏈”推理、測試時計算擴展等新范式的興起，模型需要在生成答案的過程中進行更長時間的“內心獨白”和復雜運算，這對高效、智能地管理注意力提出了更高要求。當前主流的TopK選擇方法存在固有局限，它需要預先設定固定的K值，但不同任務、模型的不同層甚至同一層內的不同注意力頭，所需關注的信息量可能差異巨大。學術界已經開始探索如何優化或繞過固定的K，例如CMU的MagicPIG等工作就在探索更動態的路徑。

沿著這一思路，一種更本質的解決方案是“自適應注意力稀疏化”，即不規定選擇多少個令牌，而是規定選擇到多少為止。例如，設定一個閾值p，從最重要的信息開始選起，直到所選信息的注意力分數累計總和達到總分的p倍為止。近期的前沿工作“Twilight”基于這種“分層Top-p修剪”思想，試圖為注意力稀疏化提供更靈活、更自適應的框架。這類探索正在將對高效注意力機制的理解推向更深層次。

DeepSeek的NSA論文為“從預訓練開始構建稀疏注意力”這條道路提供了有力驗證，這無疑會激勵更多研究者投身其中，探索更簡潔的架構、更高效的算法和更智能的選擇策略。當大模型學會像人類一樣懂得忽略和聚焦，在信息的海洋中優雅航行時，我們距離真正智能、普惠的AI或許就更近了一步。這場關于“注意力”的進化競賽，才剛剛拉開帷幕。

更多>同類內容