當(dāng)前位置：首頁 > 元宇宙 > AI

4 萬億晶體管 5nm 制程，全球最快 AI 芯片 WSE-3 碾壓 H100：單機(jī)可訓(xùn) 24 萬億參數(shù) LLM，Llama 70B 一天搞定

來源：責(zé)編：時間：2024-03-18 17:39:07 186觀看

導(dǎo)讀【新智元導(dǎo)讀】AI 世界的進(jìn)化快得有點(diǎn)跟不上了。剛剛，全球最強(qiáng)最大 AI 芯片 WSE-3 發(fā)布，4 萬億晶體管 5nm 工藝制程。更厲害的是，WSE-3 打造的單個超算可訓(xùn)出 24 萬億參數(shù)模型，相當(dāng)于 GPT-4 / Gemini 的十倍大。

【新智元導(dǎo)讀】AI 世界的進(jìn)化快得有點(diǎn)跟不上了。剛剛，全球最強(qiáng)最大 AI 芯片 WSE-3 發(fā)布，4 萬億晶體管 5nm 工藝制程。更厲害的是，WSE-3 打造的單個超算可訓(xùn)出 24 萬億參數(shù)模型，相當(dāng)于 GPT-4 / Gemini 的十倍大。

全球最快、最強(qiáng)的 AI 芯片面世，讓整個行業(yè)瞬間驚掉了下巴！

AI 芯片初創(chuàng)公司 Cerebras 重磅發(fā)布了「第三代晶圓級引擎」（WSE-3）。性能上，WSE-3 是上一代 WSE-2 的兩倍，且功耗依舊保持不變。

90 萬個 AI 核心，44GB 的片上 SRAM 存儲，讓 WSE-3 的峰值性能達(dá)到了 125 FP16 PetaFLOPS。

這相當(dāng)于 52 塊英偉達(dá) H100 GPU！

不僅如此，相比于 800 億個晶體管，芯片面積為 814 平方毫米的英偉達(dá) H100。

采用臺積電 5nm 制程的 WSE-3，不僅搭載了 40000 億個晶體管（50 倍），芯片面積更是高達(dá) 46225 平方毫米（57 倍）。

專為 AI 打造的計算能力

此前，在傳統(tǒng)的 GPU 集群上，研究團(tuán)隊不僅需要科學(xué)地分配模型，還必須在過程中處理各種復(fù)雜問題，比如處理器單元的內(nèi)存容量、互聯(lián)帶寬、同步機(jī)制等等，同時還要不斷調(diào)整超參數(shù)并進(jìn)行優(yōu)化實(shí)驗。

更令人頭疼的是，最終的實(shí)現(xiàn)很容易因為小小的變動而受到影響，這樣就會進(jìn)一步延長解決問題所需的總時間。

相比之下，WSE-3 的每一個核心都可以獨(dú)立編程，并且專為神經(jīng)網(wǎng)絡(luò)訓(xùn)練和深度學(xué)習(xí)推理中，所需的基于張量的稀疏線性代數(shù)運(yùn)算，進(jìn)行了優(yōu)化。

而團(tuán)隊也可以在 WSE-3 的加持下，以前所未有的速度和規(guī)模訓(xùn)練和運(yùn)行 AI 模型，并且不需要任何復(fù)雜分布式編程技巧。

單芯片實(shí)現(xiàn)集群級性能

其中，WSE-3 配備的 44GB 片上 SRAM 內(nèi)存均勻分布在芯片表面，使得每個核心都能在單個時鐘周期內(nèi)以極高的帶寬（21 PB/s）訪問到快速內(nèi)存 —— 是當(dāng)今地表最強(qiáng) GPU 英偉達(dá) H100 的 7000 倍。

超高帶寬，極低延遲

而 WSE-3 的片上互連技術(shù)，更是實(shí)現(xiàn)了核心間驚人的 214 Pb / s 互連帶寬，是 H100 系統(tǒng)的 3715 倍。

單個 CS-3 可訓(xùn) 24 萬億參數(shù)，大 GPT-4 十倍

由 WSE-3 組成的 CS-3 超算，可訓(xùn)練比 GPT-4 和 Gemini 大 10 倍的下一代前沿大模型。

再次打破了「摩爾定律」！2019 年 Cerebras 首次推出 CS-1，便打破了這一長達(dá) 50 年的行業(yè)法則。

官方博客中的一句話，簡直刷新世界觀：

在 CS-3 上訓(xùn)練一個萬億參數(shù)模型，就像在 GPU 上訓(xùn)練一個 10 億參數(shù)模型一樣簡單！

顯然，Cerebras 的 CS-3 強(qiáng)勢出擊，就是為了加速最新的大模型訓(xùn)練。

它配備了高達(dá) 1.2PB 的巨大存儲系統(tǒng)，單個系統(tǒng)即可訓(xùn)出 24 萬億參數(shù)的模型 —— 為比 GPT-4 和 Gemini 大十倍的模型鋪平道路。

簡之，無需分區(qū)或重構(gòu)，大大簡化訓(xùn)練工作流提高開發(fā)效率。

在 Llama 2、Falcon 40B、MPT-30B 以及多模態(tài)模型的真實(shí)測試中，CS-3 每秒輸出的 token 是上一代的 2 倍。

而且，CS-3 在不增加功耗 / 成本的情況下，將性能提高了一倍。

除此之外，為了跟上不斷升級的計算和內(nèi)存需求，Cerebras 提高了集群的可擴(kuò)展性。

上一代 CS-2 支持多達(dá) 192 個系統(tǒng)的集群，而 CS-3 可配置高達(dá) 2048 個系統(tǒng)集群，性能飆升 10 倍。

具體來說，由 2048 個 CS-3 組成的集群，可以提供 256 exafloop 的 AI 計算。

能夠在 24 小時內(nèi)，從頭訓(xùn)練一個 Llama 70B 的模型。

相比之下，Llama2 70B 可是用了大約一個月的時間，在 Meta 的 GPU 集群上完成的訓(xùn)練。

與 GPU 系統(tǒng)的另一個不同是，Cerebras 晶圓規(guī)模集群可分離計算和內(nèi)存組件，讓開發(fā)者能輕松擴(kuò)展 MemoryX 單元中的內(nèi)存容量。

得益于 Cerebras 獨(dú)特的 Weight Streaming 架構(gòu)，整個集群看起來與單個芯片無異。

換言之，一名 ML 工程師可以在一臺系統(tǒng)上開發(fā)和調(diào)試數(shù)萬億個參數(shù)模型，這在 GPU 領(lǐng)域是聞所未聞的。

具體來說，CS-3 除了為企業(yè)提供 24TB 和 36TB 這兩個版本外，還有面向超算的 120TB 和 1200TB 內(nèi)存版本。（之前的 CS-2 集群只有 1.5TB 和 12TB 可選）

單個 CS-3 可與單個 1200 TB 內(nèi)存單元配對使用，這意味著單個 CS-3 機(jī)架可以存儲模型參數(shù)，比 10000 個節(jié)點(diǎn)的 GPU 集群多得多。

除此之外，與使用 GPU 相比，在 Cerebras 平臺上開發(fā)所需的代碼量還減少了高達(dá) 97%。

更令人震驚的數(shù)字是 —— 訓(xùn)練一個 GPT-3 規(guī)模的模型，僅需 565 行代碼！

Playground AI 創(chuàng)始人稱，GPT-3 正穩(wěn)步成為 AI 領(lǐng)域的新「Hello World」。在 Cerebras 上，一個標(biāo)準(zhǔn)的 GPT-3 規(guī)模的模型，只需 565 行代碼即可實(shí)現(xiàn)，創(chuàng)下行業(yè)新紀(jì)錄。

首個世界最強(qiáng)芯片打造的超算來了

由 G42 和 Cerebras 聯(lián)手打造的超級計算機(jī) ——Condor Galaxy，是目前在云端構(gòu)建 AI 模型最簡單、最快速的解決方案。

它具備超過 16 ExaFLOPs 的 AI 計算能力，能夠在幾小時之內(nèi)完成對最復(fù)雜模型的訓(xùn)練，這一過程在傳統(tǒng)系統(tǒng)中可能需要數(shù)天。

其 MemoryX 系統(tǒng)擁有 TB 級別的內(nèi)存容量，能夠輕松處理超過 1000 億參數(shù)的大模型，大大簡化了大規(guī)模訓(xùn)練的復(fù)雜度。

與現(xiàn)有的基于 GPU 的集群系統(tǒng)不同，Condor Galaxy 在處理 GPT 這類大型語言模型，包括 GPT 的不同變體、Falcon 和 Llama 時，展現(xiàn)出了幾乎完美的擴(kuò)展能力。

這意味著，隨著更多的 CS-3 設(shè)備投入使用，模型訓(xùn)練的時間將按照幾乎完美的比例縮短。

而且，配置一個生成式 AI 模型只需幾分鐘，不再是數(shù)月，這一切只需一人便可輕松完成。

在簡化大規(guī)模 AI 計算方面，傳統(tǒng)系統(tǒng)因為需要在多個節(jié)點(diǎn)之間同步大量處理器而遇到了難題。

而 Cerebras 的全片級計算系統(tǒng)（WSC）則輕松跨越這一障礙 —— 它通過無縫整合各個組件，實(shí)現(xiàn)了大規(guī)模并行計算，并提供了簡潔的數(shù)據(jù)并行編程界面。

此前，這兩家公司已經(jīng)聯(lián)手打造了世界上最大的兩臺 AI 超級計算機(jī)：Condor Galaxy 1 和 Condor Galaxy 2，綜合性能達(dá)到 8exaFLOPs。

G42 集團(tuán)的首席技術(shù)官 Kiril Evtimov 表示：「我們正在建設(shè)的下一代 AI 超級計算機(jī) Condor Galaxy 3，具有 8exaFLOPs 的性能，很快將使我們的 AI 計算總產(chǎn)能達(dá)到 16exaFLOPs?！?span style="display:none">Nl228資訊網(wǎng)——每日最新資訊28at.com

如今，我們即將迎來新一波的創(chuàng)新浪潮，而全球 AI 革命的腳步，也再一次被加快了。

參考資料：

https://www.cerebras.net/

本文來自微信公眾號：新智元（ID：AI_era）

本文鏈接：http://www.tebozhan.com/showinfo-45-3585-0.html4 萬億晶體管 5nm 制程，全球最快 AI 芯片 WSE-3 碾壓 H100：單機(jī)可訓(xùn) 24 萬億參數(shù) LLM，Llama 70B 一天搞定

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：李開復(fù)旗下 AI 模型“零一萬物 API”上線，支持文檔理解、圖片問答等

下一篇：智譜 AI 完成新一輪融資：北京市人工智能產(chǎn)業(yè)投資基金參投，具體金額不便透露

標(biāo)簽：

熱門焦點(diǎn)

數(shù)字虛擬人23年最新變化！

作者：小資來源：米塔之家自2021年元宇宙“爆炸”后，作為現(xiàn)實(shí)世界連接元宇宙的媒介之一，大批虛擬人跑步入場。到了2022年底，據(jù)天眼查數(shù)據(jù)顯示，我國目前企業(yè)名稱或經(jīng)營范圍
字節(jié)跳動，剛剛投了一位虛擬女生

今年第一筆虛擬人融資出爐了。投資界獲悉，杭州李未可科技有限公司顯示發(fā)生股東變更，新增字節(jié)跳動關(guān)聯(lián)公司北京量子躍動科技有限公司。今天公司方面正式確認(rèn)，本輪
2022 區(qū)塊鏈 50 強(qiáng)榜單；垃圾NFT項目的十三個特性

本期關(guān)鍵字TerraZero在Decentraland完成元宇宙住房抵押貸款；騰訊發(fā)行齊白石畫作數(shù)字藏品；Ripple成為數(shù)字歐元協(xié)會成員；Gem上線稀有度排名功能；2022 區(qū)塊鏈 50 強(qiáng)榜
星展銀行(DBS)計劃推出零售數(shù)字資產(chǎn)交易服務(wù)

2月14日消息，新加坡星展銀行CEO Piyush Gupta在財報會議上表示，計劃于2022年年底前推出零售數(shù)字資產(chǎn)交易服務(wù)。據(jù)悉，DBS于2021年初開設(shè)了機(jī)構(gòu)數(shù)字資產(chǎn)交易平臺，全
虛擬數(shù)字人：元宇宙的主角破圈而來

虛擬數(shù)字人市場逐步進(jìn)入成熟期，商業(yè)化進(jìn)程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數(shù)字人行業(yè)經(jīng)歷了萌芽、探索、初級和成長四個階段。隨技術(shù)逐年突破，制
元宇宙畫廊體驗報告：有點(diǎn)頭疼。

2 月 10 日，Hrishi Rajasekar 在舊金山鑄幣廠的沉浸式 NFT 展覽 Verse 觀看增強(qiáng)現(xiàn)實(shí)藝術(shù)品。“我們現(xiàn)在在虛擬世界中嗎？時間好像變長了” 我問身后排隊的人。我
NFT世界的藝術(shù)家名單

我們匯編了以下藝術(shù)家的名單，它包括每個藝術(shù)家的簡短概述。當(dāng)然，這份名單肯定不全面，還有很多很多藝術(shù)家、哲學(xué)家和商業(yè)領(lǐng)袖為世界貢獻(xiàn)了不可估量的價值。而他們
在元宇宙開會是什么樣一種體驗

空間就是一切還記得面對面的會議嗎？就在不久前，與會者需要飛到遙遠(yuǎn)的目的地，并進(jìn)行鼓舞人心的對話、網(wǎng)絡(luò)、免費(fèi)食物，甚至可能會有一兩個很好的小組討論。隨之而來
參加元宇宙里的招聘會是什么樣一種體驗？

求職者可以在活動中走動，就像他們在現(xiàn)實(shí)生活中一樣。長話短說看亮點(diǎn)：招聘公司Hirect為Y-combinator支持的初創(chuàng)公司舉辦了一場元宇宙招聘會。這里有一個大廳、一

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

4 萬億晶體管 5nm 制程，全球最快 AI 芯片 WSE-3 碾壓 H100：單機(jī)可訓(xùn) 24 萬億參數(shù) LLM，Llama 70B 一天搞定

數(shù)字虛擬人23年最新變化！

字節(jié)跳動，剛剛投了一位虛擬女生

2022 區(qū)塊鏈 50 強(qiáng)榜單；垃圾NFT項目的十三個特性

星展銀行(DBS)計劃推出零售數(shù)字資產(chǎn)交易服務(wù)

虛擬數(shù)字人：元宇宙的主角破圈而來

元宇宙畫廊體驗報告：有點(diǎn)頭疼。

NFT世界的藝術(shù)家名單

在元宇宙開會是什么樣一種體驗

參加元宇宙里的招聘會是什么樣一種體驗？

最新推薦

人間誠實(shí)周鴻祎：360 All in 大模型的六個解讀

“啫喱”超越微信登頂：首款“元宇宙社交App”會曇花一現(xiàn)嗎？

2022年中國元宇宙系列報告：底層架構(gòu)研究：虛擬引擎，擎動未來

下一個黃金賽道？NFT的碎片化!

參加元宇宙里的招聘會是什么樣一種體驗？

我們?yōu)槭裁葱枰猈eb3，距離Web3的實(shí)現(xiàn)還有多遠(yuǎn)？

猜你喜歡

熱門推薦

相關(guān)資訊

4 萬億晶體管 5nm 制程，全球最快 AI 芯片 WSE-3 碾壓 H100：單機(jī)可訓(xùn) 24 萬億參數(shù) LLM，Llama 70B 一天搞定

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

4 萬億晶體管 5nm 制程，全球最快 AI 芯片 WSE-3 碾壓 H100：單機(jī)可訓(xùn) 24 萬億參數(shù) LLM，Llama 70B 一天搞定