4 月 18 日消息,科技媒體 WinBuzzer 昨日(4 月 17 日)發布博文,報道稱微軟研究團隊推出了一款開源大型語言模型 BitNet b1.58 2B4T,區別于傳統訓練后量化的方式,這款擁有 20 億參數的大型語言模型(LLM)以 1.58 位低精度架構原生訓練而成。
援引技術報告介紹,該模型性能直追同規模全精度模型,但計算資源需求大幅縮減。尤其令人矚目的是,其非嵌入內存占用僅 0.4GB,遠低于競品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。
BitNet 的高效秘訣在于其創新架構。模型摒棄傳統 16 位數值,采用定制 BitLinear 層,將權重限制為-1、0、+1 三種狀態,形成三值系統,每權重僅需約 1.58 位信息存儲。
此外,層間激活值以 8 位整數量化,形成 W1.58A8 配置。微軟還調整了 Transformer 架構,引入平方 ReLU 激活函數、標準旋轉位置嵌入(RoPE)以及 subln 歸一化,確保低位訓練穩定性。技術報告稱,這種原生 1 位訓練避免了傳統后訓練量化(PTQ)帶來的性能損失。
BitNet b1.58 2B4T 的開發歷經三階段:首先基于 4 萬億 token 的網絡數據、代碼和合成數學數據集進行預訓練;隨后通過公開及合成指令數據集(如 WizardLM Evol-Instruct)進行監督微調(SFT);最后采用直接偏好優化(DPO)方法,利用 UltraFeedback 等數據集提升對話能力和安全性。
微軟測試顯示,該模型在 GSM8K(數學)、PIQA(物理常識)等基準測試中表現優異,整體性能媲美主流 1B-2B 參數全精度模型,同時在能耗(每 token 0.028 焦耳)和 CPU 解碼延遲(29 毫秒)上占據顯著優勢。
盡管 BitNet 潛力巨大,但其高效性需依賴微軟提供的專用 C++ 框架 bitnet.cpp 實現。標準工具如 Hugging Face transformers 庫無法展現其速度與能耗優勢。
微軟還計劃優化 GPU 和 NPU 支持,延長上下文窗口至 4096 token,并探索更大規模模型、多語言功能及硬件協同設計。目前,BitNet b1.58 2B4T 已以 MIT 許可證在 Hugging Face 發布,供社區測試與應用。
參考
BitNet b1.58 2B4T Technical Report
hugging face 模型頁面
本文鏈接:http://www.tebozhan.com/showinfo-45-12381-0.html微軟 BitNet b1.58 2B4T 登場:內存占用僅 0.4GB,20 億參數模型顛覆 AI 計算
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com