AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

微軟 BitNet b1.58 2B4T 登場:內存占用僅 0.4GB,20 億參數(shù)模型顛覆 AI 計算

來源: 責編: 時間:2025-04-20 07:23:39 92觀看
導讀 4 月 18 日消息,科技媒體 WinBuzzer 昨日(4 月 17 日)發(fā)布博文,報道稱微軟研究團隊推出了一款開源大型語言模型 BitNet b1.58 2B4T,區(qū)別于傳統(tǒng)訓練后量化的方式,這款擁有 20 億參數(shù)的大型語言模型(LLM)以 1.58 位低精

4 月 18 日消息,科技媒體 WinBuzzer 昨日(4 月 17 日)發(fā)布博文,報道稱微軟研究團隊推出了一款開源大型語言模型 BitNet b1.58 2B4T,區(qū)別于傳統(tǒng)訓練后量化的方式,這款擁有 20 億參數(shù)的大型語言模型(LLM)以 1.58 位低精度架構原生訓練而成。bJ828資訊網(wǎng)——每日最新資訊28at.com

bJ828資訊網(wǎng)——每日最新資訊28at.com

援引技術報告介紹,該模型性能直追同規(guī)模全精度模型,但計算資源需求大幅縮減。尤其令人矚目的是,其非嵌入內存占用僅 0.4GB,遠低于競品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。bJ828資訊網(wǎng)——每日最新資訊28at.com

BitNet 的高效秘訣在于其創(chuàng)新架構。模型摒棄傳統(tǒng) 16 位數(shù)值,采用定制 BitLinear 層,將權重限制為-1、0、+1 三種狀態(tài),形成三值系統(tǒng),每權重僅需約 1.58 位信息存儲。bJ828資訊網(wǎng)——每日最新資訊28at.com

此外,層間激活值以 8 位整數(shù)量化,形成 W1.58A8 配置。微軟還調整了 Transformer 架構,引入平方 ReLU 激活函數(shù)、標準旋轉位置嵌入(RoPE)以及 subln 歸一化,確保低位訓練穩(wěn)定性。技術報告稱,這種原生 1 位訓練避免了傳統(tǒng)后訓練量化(PTQ)帶來的性能損失。bJ828資訊網(wǎng)——每日最新資訊28at.com

BitNet b1.58 2B4T 的開發(fā)歷經(jīng)三階段:首先基于 4 萬億 token 的網(wǎng)絡數(shù)據(jù)、代碼和合成數(shù)學數(shù)據(jù)集進行預訓練;隨后通過公開及合成指令數(shù)據(jù)集(如 WizardLM Evol-Instruct)進行監(jiān)督微調(SFT);最后采用直接偏好優(yōu)化(DPO)方法,利用 UltraFeedback 等數(shù)據(jù)集提升對話能力和安全性。bJ828資訊網(wǎng)——每日最新資訊28at.com

微軟測試顯示,該模型在 GSM8K(數(shù)學)、PIQA(物理常識)等基準測試中表現(xiàn)優(yōu)異,整體性能媲美主流 1B-2B 參數(shù)全精度模型,同時在能耗(每 token 0.028 焦耳)和 CPU 解碼延遲(29 毫秒)上占據(jù)顯著優(yōu)勢。bJ828資訊網(wǎng)——每日最新資訊28at.com

bJ828資訊網(wǎng)——每日最新資訊28at.com

bJ828資訊網(wǎng)——每日最新資訊28at.com

bJ828資訊網(wǎng)——每日最新資訊28at.com

盡管 BitNet 潛力巨大,但其高效性需依賴微軟提供的專用 C++ 框架 bitnet.cpp 實現(xiàn)。標準工具如 Hugging Face transformers 庫無法展現(xiàn)其速度與能耗優(yōu)勢。bJ828資訊網(wǎng)——每日最新資訊28at.com

微軟還計劃優(yōu)化 GPU 和 NPU 支持,延長上下文窗口至 4096 token,并探索更大規(guī)模模型、多語言功能及硬件協(xié)同設計。目前,BitNet b1.58 2B4T 已以 MIT 許可證在 Hugging Face 發(fā)布,供社區(qū)測試與應用。bJ828資訊網(wǎng)——每日最新資訊28at.com

參考bJ828資訊網(wǎng)——每日最新資訊28at.com

BitNet b1.58 2B4T Technical ReportbJ828資訊網(wǎng)——每日最新資訊28at.com

hugging face 模型頁面bJ828資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-12381-0.html微軟 BitNet b1.58 2B4T 登場:內存占用僅 0.4GB,20 億參數(shù)模型顛覆 AI 計算

聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 微軟 AI 負責人預測:未來“智能”成為新貨幣,知識和能力比錢更重要

下一篇: OpenAI 上線 Flex 處理模式:API 費用減半,但犧牲響應速度及穩(wěn)定性

標簽:
  • 熱門焦點
  • 這一超級富豪“逆襲”,身價大增4330億

    來源:侃見財經(jīng)互聯(lián)網(wǎng)的突圍沒有“終點”。在快節(jié)奏的商業(yè)環(huán)境下,不斷的試錯成了互聯(lián)網(wǎng)企業(yè)的標配,一年一個風口,一個風口造就一個熱點,但是回頭來看,最終受益的還是身處
  • 元宇宙步入暗夜

    撰文 | 文燁豪元宇宙的故事,似乎講不通了。 當下,刮起元宇宙熱潮的Roblox股價已跌去大半,帶頭大哥Meta也正因元宇宙虧損深陷泥潭。 再看國內,從字節(jié)“派對島&
  • 中國虛擬數(shù)字人如何橫向拓展市場需求,探索發(fā)展場景?

    通過5G、AI等新技術更新?lián)Q代,虛擬數(shù)字人為諸多下游行業(yè)帶來新的發(fā)展機會。虛擬數(shù)字人技術以其簡化性和精品性持續(xù)拓展泛娛樂、金融、教育、政務、醫(yī)療、零售等
  • 百度元宇宙希壤是什么?(附下載)

    百度元宇宙希壤是什么,最近很多人關注。還有很多人問希壤怎么下載、百度希壤怎么進入?今天小編帶你來全面了解一下。“希壤”是百度于2021年12月27日于百度AI開
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗幣殺手」成名的Shiba Inu(SHIB)在人們的印象中始終有著濃厚的Meme(模因惡搞)烙印,但它似乎一直在嘗試突破這種局限。建立起一個龐大的粉絲社區(qū)后,Shiba Inu
  • 從英式拍到荷蘭拍,看傳統(tǒng)金融拍賣玩法如何玩轉NFT市場交易

    作者:魯拍賣是一種從古至今的商業(yè)活動。從古代的典當?shù)浆F(xiàn)代的拍賣市場、我們熟知的拍賣行,以及知名街頭藝術家Bansky名畫拍賣成功后,竟自毀粉碎,現(xiàn)價值又翻倍的拍
  • Meta 呼吁行業(yè)合作建立元宇宙網(wǎng)絡基礎設施

    Facebook 的母公司 Meta呼吁,建立必要的全球合作的基礎設施,以支持其蓬勃發(fā)展的元宇宙野心。“元宇宙”成為 2021 年的主要流行語之一,這在很大程度上是由 Facebo
  • 知名藝術家打造去中心化“好萊塢”:一部電影一個DAO

    根據(jù)市場追蹤網(wǎng)站 DappRadar 的數(shù)據(jù),隨著 NFT 的“出圈”與加密貨幣的普及,NFT 市場在 2021 年的銷售額達到約 250 億美元,而 2020 年僅為 9490 萬美元,同比增超 2
  • 元宇宙不完全是想出來的,而是實打實做出來的

    沈陽強調,元宇宙不完全是想出來的,而是靠實打實做出來的;互聯(lián)網(wǎng)向三維化升級是已經(jīng)明確的大方向,這意味著大量的資金和技術會持續(xù)涌入。跨入2022年,元宇宙并沒有“
Top