黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

商湯科技攜手南洋理工發(fā)布NEO架構(gòu) 開啟原生多模態(tài)模型新篇章

   時間:2025-12-03 16:28 來源:快訊作者:江紫萱

商湯科技與南洋理工大學S-Lab聯(lián)合研發(fā)的多模態(tài)模型架構(gòu)NEO正式發(fā)布,并同步開源2B與9B兩種參數(shù)規(guī)模的模型。這一突破性成果為多模態(tài)大模型領(lǐng)域帶來全新范式,其核心架構(gòu)通過底層創(chuàng)新實現(xiàn)了視覺與語言模態(tài)的深度融合,在數(shù)據(jù)效率、性能表現(xiàn)及部署成本等關(guān)鍵指標上達到行業(yè)領(lǐng)先水平。

傳統(tǒng)多模態(tài)模型普遍采用"視覺編碼器+投影器+語言模型"的模塊化設(shè)計,這種基于大語言模型擴展的方案雖能處理圖像輸入,但本質(zhì)仍以語言為中心。商湯科技指出,此類架構(gòu)存在三大缺陷:數(shù)據(jù)層面淺層融合導致學習效率低下,圖像細節(jié)捕捉能力受限,復雜空間結(jié)構(gòu)理解困難。例如在需要精準識別物體位置關(guān)系或動態(tài)場景的場景中,傳統(tǒng)模型往往表現(xiàn)乏力。

NEO架構(gòu)通過三項底層創(chuàng)新實現(xiàn)模態(tài)融合的質(zhì)變。其獨創(chuàng)的原生圖塊嵌入技術(shù)(Native Patch Embedding)摒棄離散圖像分詞器,通過連續(xù)映射機制從像素級構(gòu)建視覺表征,使模型能捕捉到比傳統(tǒng)方法精細4倍的圖像細節(jié)。在位置編碼方面,原生三維旋轉(zhuǎn)位置編碼(Native-RoPE)創(chuàng)新性地解耦時空頻率分配,為視覺模態(tài)分配高頻信號、語言模態(tài)分配低頻信號,這種設(shè)計使模型天然具備處理視頻流和跨幀信息的能力。

注意力機制層面,原生多頭注意力(Native Multi-Head Attention)突破傳統(tǒng)框架,在統(tǒng)一架構(gòu)中同時實現(xiàn)文本的自回歸注意力與視覺的雙向注意力。這種設(shè)計使模型在處理圖文混合任務時,空間關(guān)聯(lián)利用率提升37%,特別在需要理解物體遮擋關(guān)系或動態(tài)軌跡的場景中表現(xiàn)突出。配合Pre-Buffer&Post-LLM雙階段訓練策略,模型在保持語言推理能力完整性的同時,視覺感知能力實現(xiàn)指數(shù)級增長。

實測數(shù)據(jù)顯示,NEO架構(gòu)展現(xiàn)出顯著優(yōu)勢:在數(shù)據(jù)效率方面,僅需3.9億圖像文本樣本即可達到頂尖視覺理解水平,數(shù)據(jù)需求量僅為同類模型的1/10;性能測試中,在MMMU、MMB等五大權(quán)威基準測試中均取得最優(yōu)成績;部署成本方面,0.6B-8B參數(shù)規(guī)模的模型在邊緣設(shè)備上的推理速度提升2.3倍,特別適合移動端和物聯(lián)網(wǎng)設(shè)備部署。商湯已開放基于NEO架構(gòu)的模型下載,開發(fā)者可通過開源社區(qū)獲取完整代碼與訓練框架。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群