黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

小米MiMo發(fā)布HySparse架構(gòu):為Agent時(shí)代超長文本處理帶來高效新方案

   時(shí)間:2026-02-08 08:19 來源:快訊作者:陸辰風(fēng)

在Agent模型與應(yīng)用迅猛發(fā)展的當(dāng)下,如何精準(zhǔn)且高效地處理超長文本,已成為大模型領(lǐng)域亟待攻克的關(guān)鍵難題。Agent不僅要能在超長上下文中完成穩(wěn)定的檢索、推理以及多輪規(guī)劃任務(wù),還需在推理階段保持足夠快的響應(yīng)速度。此時(shí),最大的挑戰(zhàn)已從“能否計(jì)算”轉(zhuǎn)變?yōu)椤澳芊袼愕闷稹薄?/p>

面對這一挑戰(zhàn),小米MiMo大模型團(tuán)隊(duì)推出了HySparse架構(gòu),這是一種專為Agent時(shí)代打造的混合稀疏注意力架構(gòu)。該架構(gòu)采用“極少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)”的核心設(shè)計(jì)理念,旨在實(shí)現(xiàn)效果與效率的完美平衡。

在多項(xiàng)通用、數(shù)學(xué)、代碼以及中文評測中,HySparse架構(gòu)展現(xiàn)出了卓越的性能。無論是7B Dense規(guī)模還是80B MoE規(guī)模,HySparse均能為模型帶來顯著提升。以80B - A3B MoE模型實(shí)驗(yàn)為例,在總共49層的模型中,HySparse僅保留5層Full Attention,卻依然能夠保持甚至提升模型的整體能力。同時(shí),KV Cache存儲降低至原來的1/11,真正做到了在保證效果的同時(shí)大幅提升效率。

RULER長文測試的結(jié)果進(jìn)一步證明了HySparse架構(gòu)的優(yōu)勢。即便將Full Attention層壓縮到極少數(shù),該架構(gòu)也能穩(wěn)定地保持對長距離關(guān)鍵信息的訪問能力,充分彰顯了其混合稀疏結(jié)構(gòu)的獨(dú)特魅力。

HySparse架構(gòu)的創(chuàng)新之處在于其采用了hybrid block結(jié)構(gòu)。每個(gè)hybrid block由1層Full Attention和N層Sparse Attention組成。在hybrid block內(nèi)部,Sparse Attention層不再獨(dú)立進(jìn)行token選擇和維護(hù)全量KV,而是直接復(fù)用前置Full Attention層生成的重要token索引和KV Cache。這一設(shè)計(jì)背后的邏輯在于,F(xiàn)ull Attention在完成自身計(jì)算的同時(shí),已經(jīng)生成了KV Cache,并且計(jì)算出了最準(zhǔn)確的token重要性信息,后續(xù)的N個(gè)Sparse Attention層自然可以直接復(fù)用這些信息。

可以認(rèn)為,HySparse架構(gòu)是在MiMo - V2 - Flash的Hybrid SWA結(jié)構(gòu)基礎(chǔ)上進(jìn)行的優(yōu)化升級。它為SWA增加了全局的、更重要的token信息補(bǔ)充,這一改進(jìn)不僅提升了模型性能,而且沒有增加KV Cache存儲,也沒有顯著增加計(jì)算開銷。

目前,小米MiMo團(tuán)隊(duì)已計(jì)劃在更大規(guī)模的模型上進(jìn)一步驗(yàn)證HySparse架構(gòu)的極限和潛力。同時(shí),團(tuán)隊(duì)還將持續(xù)探索降低Full Attention層數(shù)量的可能性,力求讓超長上下文的處理變得更加高效。HySparse架構(gòu)為Agent時(shí)代的超長文本處理提供了高效精準(zhǔn)的技術(shù)解決方案,也為大模型高效注意力結(jié)構(gòu)的研究與落地提供了全新的參考范例。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群