99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线兰|寡妇的肉体完整版

<p id="6y3s8"><ins id="6y3s8"></ins></p>

站內搜索 | 手機版

媒體界 - 推動中國媒體行業創新，促進業內人士交流分享！

媒體界 > 科技前沿 > 正文內容

微軟發布BitNet b1.58 2B4T，以低精度架構實現高效大型語言模型

發布時間：2025-04-18 10:08 來源：ITBEAR 作者：楊凌霄

近日，科技界迎來了一項令人矚目的創新成果——微軟研究團隊推出的開源大型語言模型BitNet b1.58 2B4T。這款模型以獨特的低精度架構原生訓練而成，擁有20億參數，卻在計算資源需求上實現了大幅縮減。

據技術報告顯示，BitNet b1.58 2B4T的性能直逼同規模的全精度模型。其非嵌入內存占用僅為0.4GB，這一數據遠低于競品Gemma-3 1B的1.4GB和MiniCPM 2B的4.8GB，展現了其卓越的內存效率。

BitNet的高效秘訣在于其創新的架構。該模型摒棄了傳統的16位數值，采用定制的BitLinear層，將權重限制為-1、0、+1三種狀態，形成了三值系統。這種設計使得每權重僅需約1.58位信息存儲，從而實現了高效的存儲和計算。

BitNet在層間激活值上也進行了優化，采用了8位整數量化，形成了W1.58A8的配置。同時，微軟還對Transformer架構進行了調整，引入了平方ReLU激活函數、標準旋轉位置嵌入（RoPE）以及subln歸一化等技術，確保了低位訓練的穩定性。這種原生1位訓練的方式避免了傳統后訓練量化（PTQ）可能帶來的性能損失。

BitNet b1.58 2B4T的開發歷經了三個階段。首先，基于4萬億token的網絡數據、代碼和合成數學數據集進行了預訓練。隨后，通過公開及合成指令數據集進行了監督微調（SFT），如WizardLM Evol-Instruct等。最后，采用直接偏好優化（DPO）方法，利用UltraFeedback等數據集提升了模型的對話能力和安全性。

微軟的測試結果顯示，BitNet在GSM8K（數學）、PIQA（物理常識）等基準測試中表現優異，整體性能與主流1B-2B參數的全精度模型相當。同時，在能耗和CPU解碼延遲上也占據了顯著優勢，每token能耗僅為0.028焦耳，CPU解碼延遲為29毫秒。

然而，值得注意的是，BitNet的高效性需要依賴微軟提供的專用C++框架bitnet.cpp來實現。如果使用標準工具如Hugging Face transformers庫，則無法充分展現其速度和能耗優勢。

微軟還透露了未來的計劃，包括優化GPU和NPU支持，延長上下文窗口至4096 token，并探索更大規模的模型、多語言功能以及硬件協同設計。目前，BitNet b1.58 2B4T已經以MIT許可證在Hugging Face上發布，供社區進行測試和應用。

更多>同類內容

9500車位低碳智能汽車運輸船“安吉茂盛”首航載3459臺國產車駛向歐洲

09-22

?深圳北極芯微電子A輪融資超億人民幣招銀國際等機構助力創新芯片發展?

09-20

品牌與場景雙輪驅動：五糧液縱深出海，擦亮“大國濃香”全球名片

09-20

山東港口陸海國際物流集團注冊資本躍升增資至20億增幅達六成

09-19

美國2025年401(k)新規：60至63歲高收入者“超級追加”助力退休儲蓄升級

09-14

全球GDP50強城市格局生變：紐約“獨霸”，上?！邦I跑”亞太，青島憑何“逆襲”？

09-14

2025服貿會聚焦：一刻鐘便民圈覆蓋超七成地級市，連鎖化率飆升！

09-12

馬斯克四度登頂福布斯美國富豪榜！蓋茨34年來首跌前十，誰在改寫財富格局？

09-11

?甲骨文股價飆升36%創33年新高，OpenAI 3000億美元云協議成背后推手？?

09-11

拉里·埃里森身家飆升短暫登頂全球首富，馬斯克收盤時重奪寶座！

09-11

拉里·埃里森凈資產達3930億美元，甲骨文股價飆升助其登頂全球首富寶座

09-11

就業數據成市場“風向標”，華爾街交易員：通脹難掀股市大波瀾？

09-11

甲骨文云業務強勁，市值或增超2300億，有望成標普500第十大市值股？

09-11

?美國加征關稅“自食其果” 8月德國成巴西咖啡最大海外市場！?

09-11

美歐求中國“共享”稀土技術？稀土博弈下，西方“公平共享”面具被徹底撕下！

09-10

點擊查看更多 +

全站最新

比亞迪儲能布局深化：發布新一代“浩瀚” 搭載全球最大儲能專用刀片電池

比亞迪儲能布局深化：發布新一代“浩瀚” 搭載全球最大儲能專用刀片電池

摩根大通：AI驅動半導體周期至2027年，亞洲科技股2026年盈利上修潛力大

摩根大通：AI驅動半導體周期至2027年，亞洲科技股2026年盈利上修潛力大

康諾思騰獲C+輪約2億美元融資，港投等投資方助力手術機器人創新發展

康諾思騰獲C+輪約2億美元融資，港投等投資方助力手術機器人創新發展

閃迪季度業績超預期股價創新高，AI需求致存儲芯片市場趨緊

閃迪季度業績超預期股價創新高，AI需求致存儲芯片市場趨緊

2025年新能源汽車行業：全球趨勢剖析與消費者需求深度洞察（21頁報告）

2025年新能源汽車行業：全球趨勢剖析與消費者需求深度洞察（21頁報告）

文心4.5衍生模型PaddleOCR-VL登頂HF Trending全球榜首

文心4.5衍生模型PaddleOCR-VL登頂HF Trending全球榜首

助力全球汽車安全標準升級，賽力斯攜“智能安全體系”閃耀2025全球NCAP大會

助力全球汽車安全標準升級，賽力斯攜“智能安全體系”閃耀2025全球NCAP大會

賽力斯集團擬赴港交所IPO 募資聚焦智能駕駛與海外拓展加速全球化進程

賽力斯集團擬赴港交所IPO 募資聚焦智能駕駛與海外拓展加速全球化進程

熱門內容

本欄最新

9500車位低碳智能汽車運輸船“安吉茂盛”首航載3459臺國產車駛向歐洲

9500車位低碳智能汽車運輸船“安吉茂盛”首航載3459臺國產車駛向歐洲

?深圳北極芯微電子A輪融資超億人民幣招銀國際等機構助力創新芯片發展?

?深圳北極芯微電子A輪融資超億人民幣招銀國際等機構助力創新芯片發展?

品牌與場景雙輪驅動：五糧液縱深出海，擦亮“大國濃香”全球名片

品牌與場景雙輪驅動：五糧液縱深出海，擦亮“大國濃香”全球名片

山東港口陸海國際物流集團注冊資本躍升增資至20億增幅達六成

山東港口陸海國際物流集團注冊資本躍升增資至20億增幅達六成

美國2025年401(k)新規：60至63歲高收入者“超級追加”助力退休儲蓄升級

美國2025年401(k)新規：60至63歲高收入者“超級追加”助力退休儲蓄升級

全球GDP50強城市格局生變：紐約“獨霸”，上海“領跑”亞太，青島憑何“逆襲”？

全球GDP50強城市格局生變：紐約“獨霸”，上海“領跑”亞太，青島憑何“逆襲”？

2025服貿會聚焦：一刻鐘便民圈覆蓋超七成地級市，連鎖化率飆升！

2025服貿會聚焦：一刻鐘便民圈覆蓋超七成地級市，連鎖化率飆升！

馬斯克四度登頂福布斯美國富豪榜！蓋茨34年來首跌前十，誰在改寫財富格局？

馬斯克四度登頂福布斯美國富豪榜！蓋茨34年來首跌前十，誰在改寫財富格局？

媒體界微信：netspread（注明:媒體界）媒體界使命：推動中國媒體行業創新，促進業內人士交流分享！
Copyright ? 2016-2023 mws.com.cn All rights reserved. 魯ICP備11015305號

<style id="p3zfy"><tbody id="p3zfy"><noframes id="p3zfy"></noframes></tbody></style>

<td id="p3zfy"></td>

<p id="p3zfy"><ins id="p3zfy"></ins></p>

<td id="p3zfy"></td>