在人工智能領(lǐng)域,殘差連接自2016年ResNet架構(gòu)提出以來,始終是支撐深度學(xué)習(xí)模型深化的核心設(shè)計。這種通過"捷徑通道"繞過非線性變換的機制,有效緩解了梯度消失或爆炸問題,使模型層數(shù)得以突破性增長。然而,當(dāng)字節(jié)跳動在2024年推出超連接(HyperConnection)技術(shù)時,業(yè)界發(fā)現(xiàn)殘差流優(yōu)化仍存在未被完全開發(fā)的潛力——該技術(shù)通過拓寬殘差流寬度、構(gòu)建多路并行信號流,顯著提升了模型表達(dá)能力,卻在規(guī)模化訓(xùn)練中暴露出信號發(fā)散的致命缺陷。
DeepSeek最新發(fā)表的論文揭示了這一矛盾的本質(zhì):超連接技術(shù)為追求表達(dá)力,放棄了殘差連接原有的恒等映射約束。在270億參數(shù)模型的訓(xùn)練測試中,約12000步后梯度范數(shù)出現(xiàn)劇烈波動,第60層信號強度膨脹至輸入值的3000倍。這種信號爆炸現(xiàn)象在硬件受限環(huán)境下尤為突出,直接導(dǎo)致訓(xùn)練崩潰。研究團(tuán)隊指出,小規(guī)模模型尚可通過調(diào)參掩蓋問題,但參數(shù)規(guī)模突破臨界點后,缺陷會被急劇放大。
針對這一難題,DeepSeek提出的流形約束超連接(mHC)架構(gòu)引入雙重隨機矩陣約束。該設(shè)計要求變換矩陣每行、每列元素之和均為1且非負(fù),形成數(shù)學(xué)意義上的"剛性預(yù)算",確保輸出信號強度嚴(yán)格介于輸入信號的最大最小值之間。實驗數(shù)據(jù)顯示,在相同測試場景中,mHC架構(gòu)的信號放大峰值被控制在1.6倍以內(nèi),較超連接技術(shù)降低近2000倍。更關(guān)鍵的是,雙重隨機矩陣的組合不變性使多層疊加后仍保持穩(wěn)定,從根本上解決了規(guī)模化訓(xùn)練的穩(wěn)定性問題。
為平衡計算效率與性能提升,研究團(tuán)隊采用Sinkhorn-Knopp迭代進(jìn)行矩陣投影。這種優(yōu)化方法僅需20輪迭代即可收斂,將額外訓(xùn)練成本壓制在6.7%以內(nèi)。配合基于TileLang編寫的混合精度內(nèi)核(以bfloat16為主,float32保障關(guān)鍵精度),mHC架構(gòu)在30億至270億參數(shù)模型中均表現(xiàn)出色。測試結(jié)果顯示,270億參數(shù)模型在BIG-Bench Hard復(fù)雜推理任務(wù)上提升2.1%,DROP閱讀理解任務(wù)提升2.3%,驗證了技術(shù)方案的工業(yè)化可行性。
硬件約束不僅催生了算法創(chuàng)新,更推動了系統(tǒng)級優(yōu)化。針對超連接技術(shù)帶來的數(shù)據(jù)讀寫量倍增問題,DeepSeek實施了三項關(guān)鍵優(yōu)化:通過算子融合減少GPU內(nèi)核切換,將內(nèi)存訪問模式相近的操作合并執(zhí)行;采用反向傳播重計算技術(shù),以實時重算中間激活值替代存儲,用計算資源換取內(nèi)存空間;運用流水線并行優(yōu)化,重疊跨GPU通信與本地計算周期。這些措施將內(nèi)存開銷從隨層數(shù)線性增長轉(zhuǎn)化為由模塊大小控制的有界增長,使A800/A100等受限硬件的運算效率顯著提升。
在技術(shù)發(fā)布策略上,DeepSeek選擇通過arXiv、Hugging Face等開放平臺快速傳播成果。這種模式雖犧牲部分傳統(tǒng)學(xué)術(shù)聲望,卻換來了技術(shù)擴散的速度優(yōu)勢。當(dāng)mHC架構(gòu)的性能增益具備可量化、可復(fù)現(xiàn)特征時,西方實驗室面臨直接競爭壓力——要么跟進(jìn)類似技術(shù)路線,要么必須論證自身路徑的優(yōu)越性。此前R1模型已引發(fā)推理模型研發(fā)熱潮,此次架構(gòu)創(chuàng)新很可能推動殘差流優(yōu)化進(jìn)入新迭代周期。
值得關(guān)注的是,mHC論文發(fā)布時間點與DeepSeek下一代旗艦?zāi)P停≧2)的預(yù)期亮相形成微妙呼應(yīng)。這種"論文先行"策略既通過同行評議建立技術(shù)公信力,又在復(fù)雜地緣環(huán)境中為原創(chuàng)性留下時間戳。研究團(tuán)隊強調(diào),中國AI企業(yè)的核心競爭力不依賴尖端算力芯片,而是通過數(shù)學(xué)約束與系統(tǒng)優(yōu)化突破硬件限制。在270億參數(shù)模型的工業(yè)化測試中,mHC架構(gòu)已證明:當(dāng)技術(shù)管制迫使創(chuàng)新回歸數(shù)學(xué)本質(zhì)時,真正的核心突破反而更容易誕生。
字節(jié)跳動與DeepSeek的技術(shù)演進(jìn)路徑,生動展現(xiàn)了AI領(lǐng)域的創(chuàng)新接力。前者率先突破傳統(tǒng)殘差流設(shè)計,卻在規(guī)模化訓(xùn)練中遭遇瓶頸;后者在硬件約束下,通過數(shù)學(xué)約束與系統(tǒng)優(yōu)化架起技術(shù)橋梁。隨著R2模型發(fā)布窗口臨近,這場始于殘差流優(yōu)化的技術(shù)競賽,正在重新定義AI競賽的規(guī)則——當(dāng)燒錢堆算力的路徑遭遇挑戰(zhàn)時,數(shù)學(xué)創(chuàng)新與系統(tǒng)工程的深度融合,可能成為突破硬件限制的關(guān)鍵鑰匙。















