面壁智能聯(lián)合華為昇騰開源BitCPM-CANN，端側(cè)AI低比特時代加速到來

發(fā)布時間：2026-05-25 18:06 來源：快訊作者：李娜

面壁智能近日攜手清華大學(xué)與OpenBMB開源社區(qū)，共同推出國內(nèi)首款基于國產(chǎn)算力平臺（華為昇騰）實現(xiàn)端到端訓(xùn)練的三值（1.58-bit）大模型——BitCPM-CANN，并同步開源其全系列模型權(quán)重。這一突破標(biāo)志著我國在極低位寬模型領(lǐng)域邁出關(guān)鍵一步，為移動端設(shè)備運(yùn)行高性能大模型提供了可能。

據(jù)技術(shù)團(tuán)隊介紹，BitCPM-CANN包含0.5B、1B、3B、8B四個參數(shù)規(guī)模的版本，在保持與全精度模型相近性能的同時，推理階段顯存占用可降低約6倍。實驗數(shù)據(jù)顯示，其模型能力保留率穩(wěn)定在90%至97.2%之間，這意味著未來智能手機(jī)等終端設(shè)備有望直接運(yùn)行60B參數(shù)量級的大模型，顯著提升設(shè)備智能化水平。

該模型的研發(fā)背景與全球內(nèi)存市場波動密切相關(guān)。面壁智能AI Infra負(fù)責(zé)人李宇軒透露，自2026年以來內(nèi)存價格已上漲近5倍，迫使行業(yè)重新審視模型部署的硬件成本。這種壓力直接傳導(dǎo)至模型開發(fā)環(huán)節(jié)，促使技術(shù)路線向更節(jié)省內(nèi)存的方向演進(jìn)。BitCPM-CANN的推出正是對這一市場變化的積極響應(yīng)，通過量化壓縮技術(shù)將模型精度降至1.58-bit，在性能與成本間取得平衡。

在技術(shù)實現(xiàn)層面，極低位寬模型面臨精度損失的挑戰(zhàn)。研發(fā)團(tuán)隊采用多重優(yōu)化策略：通過嚴(yán)格的數(shù)據(jù)清洗過濾噪聲信息，選用高性能量化器減少壓縮損耗，并創(chuàng)新性地提出"量化感知訓(xùn)練+大模型蒸餾"的組合方案。這種訓(xùn)練方法既能保證低比特環(huán)境下的訓(xùn)練穩(wěn)定性，又能最大限度恢復(fù)模型原始能力。李宇軒比喻稱："這就像用真空壓縮袋打包貨物，需要在節(jié)省空間和保持物品完好間找到最佳平衡點。"

行業(yè)觀察顯示，模型量化技術(shù)正呈現(xiàn)加速迭代趨勢。2023年主流方案還是FP8精度，如今FP4已成為標(biāo)配，而2-bit、1.58-bit等更低精度技術(shù)正在快速落地。高通已率先實現(xiàn)2-bit硬件支持，國內(nèi)DeepSeek、智譜等企業(yè)也在推進(jìn)相關(guān)部署。值得關(guān)注的是，面壁智能團(tuán)隊僅用三周時間就完成了BitCPM-CANN在昇騰平臺的適配優(yōu)化，在8B參數(shù)規(guī)模以下的訓(xùn)練任務(wù)中，昇騰芯片的利用率和穩(wěn)定性已達(dá)到行業(yè)領(lǐng)先水平。

盡管極低位寬模型展現(xiàn)出顯著優(yōu)勢，但技術(shù)團(tuán)隊也坦言存在局限性。模型參數(shù)規(guī)模與位寬的降低會導(dǎo)致知識存儲能力斷崖式下降，表現(xiàn)為特定任務(wù)上的性能波動。針對這一問題，研發(fā)團(tuán)隊計劃通過構(gòu)建更精細(xì)的課程學(xué)習(xí)體系，針對性強(qiáng)化模型基礎(chǔ)能力，逐步提升其在復(fù)雜場景下的表現(xiàn)。

目前，BitCPM-CANN全系列模型已通過開源方式向社區(qū)開放。面壁智能表示，希望此舉能降低國產(chǎn)算力平臺在低比特場景下的應(yīng)用門檻，為開發(fā)者提供真實性能的驗證基準(zhǔn)，推動極低位寬模型技術(shù)的生態(tài)建設(shè)。

更多>同類內(nèi)容