AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁(yè) > 科技  > 軟件

微軟開(kāi)源 1.58bit 推理框架:千億參數(shù)模型量化后單 CPU 可跑,速度每秒 5-7 個(gè) token

來(lái)源: 責(zé)編: 時(shí)間:2024-10-23 09:27:40 51觀看
導(dǎo)讀 微軟開(kāi)源 1bit 大模型推理框架!現(xiàn)在 1000 億參數(shù)大模型量化后單 CPU 可跑,速度可達(dá)每秒 5-7 個(gè) token。比如在蘋(píng)果 M2 新品上運(yùn)行 BitNet b1.58 3B 模型,be like:就是今年爆火論文 The Era of 1-bit LLMs 的官方

微軟開(kāi)源 1bit 大模型推理框架!2Uz28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在 1000 億參數(shù)大模型量化后單 CPU 可跑,速度可達(dá)每秒 5-7 個(gè) token。2Uz28資訊網(wǎng)——每日最新資訊28at.com

比如在蘋(píng)果 M2 新品上運(yùn)行 BitNet b1.58 3B 模型,be like:2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

就是今年爆火論文 The Era of 1-bit LLMs 的官方代碼實(shí)現(xiàn),開(kāi)源不到一周 GitHub 已攬獲 7.9k Star。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

傳統(tǒng)大模型參數(shù)以 16 位浮點(diǎn)數(shù)(如 FP16 或 BF16)形式的存儲(chǔ),而 BitNet b1.58 將其統(tǒng)統(tǒng)變成了三進(jìn)制,也就是{-1, 0, 1}。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

這里的“1.58 bit”指每個(gè)參數(shù)可以用 1.58 位的信息來(lái)表示。2Uz28資訊網(wǎng)——每日最新資訊28at.com

轉(zhuǎn)換之后,矩陣中的計(jì)算就只會(huì)涉及到加法,因此會(huì)讓大模型在保持一定精度的同時(shí),顯著減少所需的存儲(chǔ)空間和計(jì)算資源,也顯著提升了在本地設(shè)備上運(yùn)行 LLM 的可能性。2Uz28資訊網(wǎng)——每日最新資訊28at.com

這個(gè)項(xiàng)目開(kāi)源后,在 X 上也受到了一波高度關(guān)注。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

千億參數(shù)模型量化后單 CPU 可跑

bitnet.cpp 是 1bit LLM(例如 BitNet b1.58)的官方推理框架。2Uz28資訊網(wǎng)——每日最新資訊28at.com

該框架配備了一系列優(yōu)化內(nèi)核,支持在 CPU 上進(jìn)行快速且無(wú)損的 1.58bit 模型推理,未來(lái)將擴(kuò)展支持 NPU 和 GPU。2Uz28資訊網(wǎng)——每日最新資訊28at.com

bitnet.cpp 的首版主要支持 CPU 推理。2Uz28資訊網(wǎng)——每日最新資訊28at.com

具體性能改進(jìn)方面,在 ARM CPU 上,該框架可實(shí)現(xiàn) 1.37 至 5.07 倍的加速,而且更大的模型將有更顯著的性能提升。2Uz28資訊網(wǎng)——每日最新資訊28at.com

同時(shí),它能將能耗降低 55.4% 至 70.0%,進(jìn)一步增強(qiáng)效率。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

在 x86 CPU 上,加速效果介于 2.37 至 6.17 倍之間,能耗減少 71.9% 至 82.2%。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

網(wǎng)友們也發(fā)現(xiàn)了華點(diǎn),在 x86 上的性能增益量比 ARM 更大。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

此外,bitnet.cpp 能使千億參數(shù)模型量化后單 CPU 可跑,速度可達(dá)每秒 5-7 個(gè) token,接近人類(lèi)閱讀速度。2Uz28資訊網(wǎng)——每日最新資訊28at.com

微軟還展示了使用 bitnet.cpp 推理框架支持的不同 1 bit LLM。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

6 頁(yè)論文,引入 1 bit LLM

1 bit LLM 的實(shí)現(xiàn)方法,微軟在一年前就有相關(guān)研究,稱(chēng)為 BitNet(一種 Transformer),用 BitLinear 替換了 nn.Linear。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

今年二月,BitNet 原班人馬在上一篇論文的基礎(chǔ)之上做了優(yōu)化,提出 BitNet b1.58,在原始 BitNet 的基礎(chǔ)上增加了一個(gè)額外的 0 值。2Uz28資訊網(wǎng)——每日最新資訊28at.com

然后這篇內(nèi)容只有 6 頁(yè)的論文引發(fā)熱議:2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

BitNet b1.58 模型的權(quán)重被量化為三元值 {-1, 0, 1},相當(dāng)于在二進(jìn)制系統(tǒng)中使用了 1.58 bit 來(lái)表示每個(gè)權(quán)重。2Uz28資訊網(wǎng)——每日最新資訊28at.com

采用了 absmean 量化函數(shù)來(lái)約束權(quán)重,將權(quán)重矩陣通過(guò)其平均絕對(duì)值進(jìn)行縮放,然后四舍五入到最接近的整數(shù)值(-1、0 或 1)。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

激活量化中,激活值被縮放到 [?Qb, Qb] 的范圍,以此來(lái)消除零點(diǎn)量化。2Uz28資訊網(wǎng)——每日最新資訊28at.com

在架構(gòu)設(shè)計(jì)上,BitNet b1.58 借鑒了 Llama,使用了 RMSNorm、SwiGLU、旋轉(zhuǎn)位置編碼等組件,并移除了所有偏置項(xiàng)。這種設(shè)計(jì)使其能夠輕松集成到主流的開(kāi)源框架中。2Uz28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)中,與 Llama 相比,BitNet b1.58 在矩陣乘法方面節(jié)省了 71.4 倍的計(jì)算能耗。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

這種方法發(fā)布后,也有不少人在這項(xiàng)研究的基礎(chǔ)之上進(jìn)行探索。2Uz28資訊網(wǎng)——每日最新資訊28at.com

其中一個(gè)問(wèn)題是,BitNet b1.58 將每個(gè)參數(shù)僅用三元值表示,但是所有這些都需要從頭開(kāi)始訓(xùn)練模型,并不是誰(shuí)都有預(yù)算來(lái)進(jìn)行 LLM 預(yù)訓(xùn)練。2Uz28資訊網(wǎng)——每日最新資訊28at.com

而 Huggingface Transformers 最近整合了 BitNet b1.58,運(yùn)用了一些技巧,使得現(xiàn)有模型可以直接微調(diào)到 1.58bit。2Uz28資訊網(wǎng)——每日最新資訊28at.com

感興趣的童鞋可以自行查閱。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

不過(guò)也有網(wǎng)友指出了這種方法的局限:2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

總之,1 bit LLM 具有巨大的潛力。2Uz28資訊網(wǎng)——每日最新資訊28at.com

但也正如網(wǎng)友所言,1 bit LLM 關(guān)鍵還得是能在實(shí)踐中證明自己。2Uz28資訊網(wǎng)——每日最新資訊28at.com

2Uz28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:2Uz28資訊網(wǎng)——每日最新資訊28at.com

[1]https://github.com/microsoft/BitNet2Uz28資訊網(wǎng)——每日最新資訊28at.com

[2]https://x.com/rohanpaul_ai/status/18478143796574622012Uz28資訊網(wǎng)——每日最新資訊28at.com

[3]https://x.com/rohanpaul_ai/status/1848172443258728860?s=46&t=iTysI4vQLQqCNJjSmBODPw2Uz28資訊網(wǎng)——每日最新資訊28at.com

[4]https://huggingface.co/blog/zh/1_58_llm_extreme_quantization2Uz28資訊網(wǎng)——每日最新資訊28at.com

本文來(lái)自微信公眾號(hào):微信公眾號(hào)(ID:QbitAI),作者:西風(fēng),原標(biāo)題《微軟開(kāi)源爆火 1.58bit 大模型推理框架!千億參數(shù)模型量化后單 CPU 可跑,速度每秒 5-7 個(gè) token》2Uz28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-125201-0.html微軟開(kāi)源 1.58bit 推理框架:千億參數(shù)模型量化后單 CPU 可跑,速度每秒 5-7 個(gè) token

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 安吉爾 37 周年盛典,超值福利大放送

下一篇: 科大訊飛星火超擬人數(shù)字人發(fā)布:業(yè)界率先實(shí)現(xiàn)“口唇-表情-動(dòng)作”生成,多模態(tài)交互

標(biāo)簽:
  • 熱門(mén)焦點(diǎn)
Top