AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

微軟 BitNet b1.58 2B4T 登場:內存占用僅 0.4GB,20 億參數模型顛覆 AI 計算

來源: 責編: 時間:2025-04-20 07:23:39 23觀看
導讀 4 月 18 日消息,科技媒體 WinBuzzer 昨日(4 月 17 日)發布博文,報道稱微軟研究團隊推出了一款開源大型語言模型 BitNet b1.58 2B4T,區別于傳統訓練后量化的方式,這款擁有 20 億參數的大型語言模型(LLM)以 1.58 位低精

4 月 18 日消息,科技媒體 WinBuzzer 昨日(4 月 17 日)發布博文,報道稱微軟研究團隊推出了一款開源大型語言模型 BitNet b1.58 2B4T,區別于傳統訓練后量化的方式,這款擁有 20 億參數的大型語言模型(LLM)以 1.58 位低精度架構原生訓練而成。YPO28資訊網——每日最新資訊28at.com

YPO28資訊網——每日最新資訊28at.com

援引技術報告介紹,該模型性能直追同規模全精度模型,但計算資源需求大幅縮減。尤其令人矚目的是,其非嵌入內存占用僅 0.4GB,遠低于競品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。YPO28資訊網——每日最新資訊28at.com

BitNet 的高效秘訣在于其創新架構。模型摒棄傳統 16 位數值,采用定制 BitLinear 層,將權重限制為-1、0、+1 三種狀態,形成三值系統,每權重僅需約 1.58 位信息存儲。YPO28資訊網——每日最新資訊28at.com

此外,層間激活值以 8 位整數量化,形成 W1.58A8 配置。微軟還調整了 Transformer 架構,引入平方 ReLU 激活函數、標準旋轉位置嵌入(RoPE)以及 subln 歸一化,確保低位訓練穩定性。技術報告稱,這種原生 1 位訓練避免了傳統后訓練量化(PTQ)帶來的性能損失。YPO28資訊網——每日最新資訊28at.com

BitNet b1.58 2B4T 的開發歷經三階段:首先基于 4 萬億 token 的網絡數據、代碼和合成數學數據集進行預訓練;隨后通過公開及合成指令數據集(如 WizardLM Evol-Instruct)進行監督微調(SFT);最后采用直接偏好優化(DPO)方法,利用 UltraFeedback 等數據集提升對話能力和安全性。YPO28資訊網——每日最新資訊28at.com

微軟測試顯示,該模型在 GSM8K(數學)、PIQA(物理常識)等基準測試中表現優異,整體性能媲美主流 1B-2B 參數全精度模型,同時在能耗(每 token 0.028 焦耳)和 CPU 解碼延遲(29 毫秒)上占據顯著優勢。YPO28資訊網——每日最新資訊28at.com

YPO28資訊網——每日最新資訊28at.com

YPO28資訊網——每日最新資訊28at.com

YPO28資訊網——每日最新資訊28at.com

盡管 BitNet 潛力巨大,但其高效性需依賴微軟提供的專用 C++ 框架 bitnet.cpp 實現。標準工具如 Hugging Face transformers 庫無法展現其速度與能耗優勢。YPO28資訊網——每日最新資訊28at.com

微軟還計劃優化 GPU 和 NPU 支持,延長上下文窗口至 4096 token,并探索更大規模模型、多語言功能及硬件協同設計。目前,BitNet b1.58 2B4T 已以 MIT 許可證在 Hugging Face 發布,供社區測試與應用。YPO28資訊網——每日最新資訊28at.com

參考YPO28資訊網——每日最新資訊28at.com

BitNet b1.58 2B4T Technical ReportYPO28資訊網——每日最新資訊28at.com

hugging face 模型頁面YPO28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-12381-0.html微軟 BitNet b1.58 2B4T 登場:內存占用僅 0.4GB,20 億參數模型顛覆 AI 計算

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 微軟 AI 負責人預測:未來“智能”成為新貨幣,知識和能力比錢更重要

下一篇: OpenAI 上線 Flex 處理模式:API 費用減半,但犧牲響應速度及穩定性

標簽:
  • 熱門焦點
Top