99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

大模型“瘦身”新突破:NSA機制讓注意力“聰明聚焦”

   發布時間:2026-05-15 09:27 作者:馮璃月

在人工智能領域,大模型的發展始終面臨著一個關鍵挑戰:如何在處理超長文本時,既保持強大的“記憶力”又能實現高效的“思考速度”。最近,DeepSeek團隊發布的一篇新論文引發了廣泛關注,其提出的“原生稀疏注意力”(Native Sparse Attention,簡稱NSA)機制,為解決這一難題提供了新的思路,甚至可能成為推動大模型走向更廣泛應用的關鍵突破。

長期以來,學術界和工業界都在探索讓大模型更高效處理長文本的方法。學術界提出了許多“訓練后免費方案”,但這些方法往往缺乏靈活性,難以適應復雜多變的實際應用場景。而工業界此次選擇了一條更為“硬核”的道路——從預訓練階段就開始優化模型的注意力機制。幾乎在同一時間,知名公司Kimi也公布了名為MoBA的類似研究,兩篇論文不約而同地聚焦于預訓練階段的注意力調整,這一現象背后,是預訓練所需的高昂成本和巨大算力需求,這通常是只有行業巨頭才敢涉足的領域。

NSA注意力機制之所以備受矚目,關鍵在于其獨特的設計理念。它就像一位聰明的指揮官,同時指揮三支小分隊處理海量信息,而非讓模型逐字逐句地審視。這三支小分隊各有分工,協同作戰。

第一支是壓縮分隊(Token Compression)。其作用類似于對一本書進行章節總結,將連續的文本切成小塊,然后用可學習的小型神經網絡將這些小塊的信息壓縮成“代表”。這些“代表”攜帶了整個小塊的精髓,參與后續的注意力計算。這種方法借鑒了之前SeerAttention等工作的思路,但通過引入可學習參數,讓模型能夠自主學會如何更好地“概括”信息。

第二支是精選分隊(Token Selection),這是NSA的主力部隊。它需要在茫茫“詞海”中快速挑選出當前最需要關注的文本塊。NSA采用了“兩步走”策略:首先,利用壓縮后的“塊代表”和當前問題(Query)估算每個塊的“潛在重要性得分”;然后,根據得分選拔出得分最高的Top K個塊。這些被選中的塊會派出原始的、完整的“鍵”進行精確的注意力計算。這種“查詢感知”的選擇方式,確保了模型的選擇完全基于當前思考的問題,避免了早期方法因簡單丟棄歷史信息而導致的錯誤,比如在多輪對話中遺忘關鍵約定。

第三支是近衛分隊(Window Attention),負責保障“近期記憶”的安全。它只關注最近出現的一小段文本,就像一個滑動窗口,確保模型不會忘記剛剛說過的話。這一設計最早源于Longformer,后來被StreamingLLM等工作改進。在NSA中,近衛分隊的規則被巧妙融入精選分隊,論文規定第一個塊(通常是最近的上下文)會被固定選中。

這三支小分隊的計算結果最終會匯聚到一個“決策門”,由它根據實際情況決定各路結果的貢獻比例,然后加權求和,得到最終的注意力輸出。NSA的核心目標是大幅減少解碼階段需要從顯存加載的KV Cache數據量。需要注意的是,NSA節省的并非顯存本身,而是數據從顯存到計算核心的搬運帶寬。在現代大模型推理中,尤其是生成文本時,計算往往不是瓶頸,數據搬運才是最大的拖累。NSA通過智能選擇,只加載最需要的數據,有效緩解了帶寬壓力,提高了計算效率。

NSA真正引發討論的“亮點”,在于其“原生可訓練”(Native Trainable)的特性。過去的稀疏注意力方法大多是“訓練后免費附加”的方案,研究人員在模型訓練完成后,通過設計啟發式規則來決定在推理時丟棄哪些信息。這些方法雖然巧妙,但模型本身并未為這種“選擇性失憶”做好準備。而NSA將稀疏選擇機制直接融入模型訓練的全過程,讓模型在預訓練階段就學習如何高效分配注意力。這種“原生”訓練不僅在推理時能提高速度,在反向傳播過程中也能加速模型訓練和參數更新。這意味著稀疏注意力不再僅僅是推理加速工具,而是可以成為模型架構的一部分,甚至有可能讓“稀疏”模型在性能上超越“全注意力”模型。

從“可訓練”的角度審視NSA的三分支設計,可以發現“壓縮分隊”的存在可能正是為了實現“可訓練性”。由于“精選”和“滑窗”本質上都是丟棄信息,梯度無法有效回溯到被丟棄的原始鍵值上。而“壓縮分隊”通過可學習的線性層保留了信息的濃縮形式,使訓練信號能夠通過“壓縮器”傳遞回去,間接指導“精選分隊”做出更好的選擇。“近衛分隊”則可能扮演著訓練穩定器的角色,確保模型不會丟失最近的上下文,為學習過程提供可靠的錨點。

與NSA相比,Kimi的MoBA方案既沒有采用三分支設計,也沒有在選取過程中使用復雜的可學習層,僅通過簡單的平均池化和預訓練就實現了稀疏選擇的特性。這引發了人們的思考:實現“可訓練的稀疏注意力”,是否存在更簡潔、更優雅的架構方案?NSA的三分支設計是必經之路,還是一種有效的實現方式?這為后續研究留下了開放而有趣的問題。

這篇論文體現了濃厚的工業界風格:直面工程實踐中的核心瓶頸,追求端到端的可訓練方案以確保最優性能,設計兼顧算法創新與硬件友好。在長文本處理這一重要賽道上,工業界憑借強大的算力資源、工程整合能力和對產品性能的執著追求,正在快速追趕并形成獨特優勢。學術界在思想啟蒙和算法原型上領先一步,而工業界則擅長將這些思想打磨成在實際系統中高效運行的工具。

長文本上下文能力的重要性遠不止于讓模型閱讀更長的文章。隨著“思維鏈”推理、測試時計算擴展等新范式的興起,模型需要在生成答案的過程中進行更長時間的“內心獨白”和復雜運算,這對高效、智能地管理注意力提出了更高要求。當前主流的TopK選擇方法存在固有局限,它需要預先設定固定的K值,但不同任務、模型的不同層甚至同一層內的不同注意力頭,所需關注的信息量可能差異巨大。學術界已經開始探索如何優化或繞過固定的K,例如CMU的MagicPIG等工作就在探索更動態的路徑。

沿著這一思路,一種更本質的解決方案是“自適應注意力稀疏化”,即不規定選擇多少個令牌,而是規定選擇到多少為止。例如,設定一個閾值p,從最重要的信息開始選起,直到所選信息的注意力分數累計總和達到總分的p倍為止。近期的前沿工作“Twilight”基于這種“分層Top-p修剪”思想,試圖為注意力稀疏化提供更靈活、更自適應的框架。這類探索正在將對高效注意力機制的理解推向更深層次。

DeepSeek的NSA論文為“從預訓練開始構建稀疏注意力”這條道路提供了有力驗證,這無疑會激勵更多研究者投身其中,探索更簡潔的架構、更高效的算法和更智能的選擇策略。當大模型學會像人類一樣懂得忽略和聚焦,在信息的海洋中優雅航行時,我們距離真正智能、普惠的AI或許就更近了一步。這場關于“注意力”的進化競賽,才剛剛拉開帷幕。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新