面壁智能近日攜手清華大學(xué)與OpenBMB開源社區(qū),共同推出國內(nèi)首款基于國產(chǎn)算力平臺(華為昇騰)實現(xiàn)端到端訓(xùn)練的三值(1.58-bit)大模型——BitCPM-CANN,并同步開源其全系列模型權(quán)重。這一突破標(biāo)志著我國在極低位寬模型領(lǐng)域邁出關(guān)鍵一步,為移動端設(shè)備運(yùn)行高性能大模型提供了可能。
據(jù)技術(shù)團(tuán)隊介紹,BitCPM-CANN包含0.5B、1B、3B、8B四個參數(shù)規(guī)模的版本,在保持與全精度模型相近性能的同時,推理階段顯存占用可降低約6倍。實驗數(shù)據(jù)顯示,其模型能力保留率穩(wěn)定在90%至97.2%之間,這意味著未來智能手機(jī)等終端設(shè)備有望直接運(yùn)行60B參數(shù)量級的大模型,顯著提升設(shè)備智能化水平。
該模型的研發(fā)背景與全球內(nèi)存市場波動密切相關(guān)。面壁智能AI Infra負(fù)責(zé)人李宇軒透露,自2026年以來內(nèi)存價格已上漲近5倍,迫使行業(yè)重新審視模型部署的硬件成本。這種壓力直接傳導(dǎo)至模型開發(fā)環(huán)節(jié),促使技術(shù)路線向更節(jié)省內(nèi)存的方向演進(jìn)。BitCPM-CANN的推出正是對這一市場變化的積極響應(yīng),通過量化壓縮技術(shù)將模型精度降至1.58-bit,在性能與成本間取得平衡。
在技術(shù)實現(xiàn)層面,極低位寬模型面臨精度損失的挑戰(zhàn)。研發(fā)團(tuán)隊采用多重優(yōu)化策略:通過嚴(yán)格的數(shù)據(jù)清洗過濾噪聲信息,選用高性能量化器減少壓縮損耗,并創(chuàng)新性地提出"量化感知訓(xùn)練+大模型蒸餾"的組合方案。這種訓(xùn)練方法既能保證低比特環(huán)境下的訓(xùn)練穩(wěn)定性,又能最大限度恢復(fù)模型原始能力。李宇軒比喻稱:"這就像用真空壓縮袋打包貨物,需要在節(jié)省空間和保持物品完好間找到最佳平衡點。"
行業(yè)觀察顯示,模型量化技術(shù)正呈現(xiàn)加速迭代趨勢。2023年主流方案還是FP8精度,如今FP4已成為標(biāo)配,而2-bit、1.58-bit等更低精度技術(shù)正在快速落地。高通已率先實現(xiàn)2-bit硬件支持,國內(nèi)DeepSeek、智譜等企業(yè)也在推進(jìn)相關(guān)部署。值得關(guān)注的是,面壁智能團(tuán)隊僅用三周時間就完成了BitCPM-CANN在昇騰平臺的適配優(yōu)化,在8B參數(shù)規(guī)模以下的訓(xùn)練任務(wù)中,昇騰芯片的利用率和穩(wěn)定性已達(dá)到行業(yè)領(lǐng)先水平。
盡管極低位寬模型展現(xiàn)出顯著優(yōu)勢,但技術(shù)團(tuán)隊也坦言存在局限性。模型參數(shù)規(guī)模與位寬的降低會導(dǎo)致知識存儲能力斷崖式下降,表現(xiàn)為特定任務(wù)上的性能波動。針對這一問題,研發(fā)團(tuán)隊計劃通過構(gòu)建更精細(xì)的課程學(xué)習(xí)體系,針對性強(qiáng)化模型基礎(chǔ)能力,逐步提升其在復(fù)雜場景下的表現(xiàn)。
目前,BitCPM-CANN全系列模型已通過開源方式向社區(qū)開放。面壁智能表示,希望此舉能降低國產(chǎn)算力平臺在低比特場景下的應(yīng)用門檻,為開發(fā)者提供真實性能的驗證基準(zhǔn),推動極低位寬模型技術(shù)的生態(tài)建設(shè)。















