99热精品视频在线观看,国产精品久久久久久成人影院

商湯科技攜手南洋理工發(fā)布NEO架構(gòu) 開啟原生多模態(tài)模型新篇章

時間：2025-12-03 16:28 來源：快訊作者：江紫萱

商湯科技與南洋理工大學S-Lab聯(lián)合研發(fā)的多模態(tài)模型架構(gòu)NEO正式發(fā)布，并同步開源2B與9B兩種參數(shù)規(guī)模的模型。這一突破性成果為多模態(tài)大模型領(lǐng)域帶來全新范式，其核心架構(gòu)通過底層創(chuàng)新實現(xiàn)了視覺與語言模態(tài)的深度融合，在數(shù)據(jù)效率、性能表現(xiàn)及部署成本等關(guān)鍵指標上達到行業(yè)領(lǐng)先水平。

傳統(tǒng)多模態(tài)模型普遍采用"視覺編碼器+投影器+語言模型"的模塊化設(shè)計，這種基于大語言模型擴展的方案雖能處理圖像輸入，但本質(zhì)仍以語言為中心。商湯科技指出，此類架構(gòu)存在三大缺陷：數(shù)據(jù)層面淺層融合導致學習效率低下，圖像細節(jié)捕捉能力受限，復雜空間結(jié)構(gòu)理解困難。例如在需要精準識別物體位置關(guān)系或動態(tài)場景的場景中，傳統(tǒng)模型往往表現(xiàn)乏力。

NEO架構(gòu)通過三項底層創(chuàng)新實現(xiàn)模態(tài)融合的質(zhì)變。其獨創(chuàng)的原生圖塊嵌入技術(shù)（Native Patch Embedding）摒棄離散圖像分詞器，通過連續(xù)映射機制從像素級構(gòu)建視覺表征，使模型能捕捉到比傳統(tǒng)方法精細4倍的圖像細節(jié)。在位置編碼方面，原生三維旋轉(zhuǎn)位置編碼（Native-RoPE）創(chuàng)新性地解耦時空頻率分配，為視覺模態(tài)分配高頻信號、語言模態(tài)分配低頻信號，這種設(shè)計使模型天然具備處理視頻流和跨幀信息的能力。

注意力機制層面，原生多頭注意力（Native Multi-Head Attention）突破傳統(tǒng)框架，在統(tǒng)一架構(gòu)中同時實現(xiàn)文本的自回歸注意力與視覺的雙向注意力。這種設(shè)計使模型在處理圖文混合任務時，空間關(guān)聯(lián)利用率提升37%，特別在需要理解物體遮擋關(guān)系或動態(tài)軌跡的場景中表現(xiàn)突出。配合Pre-Buffer&Post-LLM雙階段訓練策略，模型在保持語言推理能力完整性的同時，視覺感知能力實現(xiàn)指數(shù)級增長。

實測數(shù)據(jù)顯示，NEO架構(gòu)展現(xiàn)出顯著優(yōu)勢：在數(shù)據(jù)效率方面，僅需3.9億圖像文本樣本即可達到頂尖視覺理解水平，數(shù)據(jù)需求量僅為同類模型的1/10；性能測試中，在MMMU、MMB等五大權(quán)威基準測試中均取得最優(yōu)成績；部署成本方面，0.6B-8B參數(shù)規(guī)模的模型在邊緣設(shè)備上的推理速度提升2.3倍，特別適合移動端和物聯(lián)網(wǎng)設(shè)備部署。商湯已開放基于NEO架構(gòu)的模型下載，開發(fā)者可通過開源社區(qū)獲取完整代碼與訓練框架。

更多>同類內(nèi)容

中國智能車出海正當時：“天時”已備，合作	AI賦能：從IT到DT，開啟數(shù)實融合與產(chǎn)業(yè)互聯(lián)
東南亞電商轉(zhuǎn)型進行時：從低價補貼邁向品牌	千問App：以AI之力深挖教育場景，打造全學