英偉達攤上大事兒了。
據(jù)《The Information》報道,英偉達的新殺手锏——采用Blackwell架構(gòu)的AI GPU從原定的今年Q3推遲到2025年Q1推出。據(jù)稱,這款 GPU 存在設(shè)計缺陷,因此需要推遲發(fā)布產(chǎn)品以解決問題。
這一推遲直接鴿了微軟、Meta 和 xAI 等大客戶,這些公司總共訂購了價值數(shù)百億美元的芯片,關(guān)鍵數(shù)據(jù)中心的建設(shè)可能會因此受到影響。
有從業(yè)者表示,這可能會導致英偉達失去客戶的信任,并存在被訴訟的可能。
盡管英偉達發(fā)言人很快做出了回復,并表示:“Hopper 的需求非常強勁,Blackwell 的產(chǎn)量將在下半年逐步提升。”
但種種跡象顯示,被硅谷巨頭們寄予厚望的Blackwell,可能真的要“跳票”了。
硅谷巨頭的“白月光”
當采用Blackwell架構(gòu)的B100/B200芯片在GTC大會亮相后,知名華爾街投行Keybanc Capital Markets發(fā)出了一份預測:
“Blackwell芯片將推動英偉達數(shù)據(jù)中心業(yè)務(wù)的收入,從2024財年(截至2024年1月)的475億美元增長到2025年的2000多億美元。”
眾所周知,在大模型的訓練與部署中,英偉達的高性能算卡居功至偉,但BlackWell真的能憑一己之力帶動業(yè)績翻倍上漲嗎?
答案是完全有可能,甚至未來五年內(nèi),硅谷巨頭之間的軍備競賽,在硬件層面將完全基于Blackwell架構(gòu)芯片展開。
首先需要明確的是,Blackwell并不是一種芯片,而是一個平臺,可以把它看作是過去Hooper架構(gòu)的延伸,但性能卻實現(xiàn)了全方位的碾壓。
在Blackwell架構(gòu)的芯片上,英偉達承襲了H200上“拼裝芯片”的思路,采用統(tǒng)一內(nèi)存架構(gòu)+雙芯配置,將2枚GPU Die(裸晶)拼接到一個GPU上,實現(xiàn)192GB HBM3e內(nèi)存及8TB/s顯存帶寬。
相較于前代產(chǎn)品Hooper架構(gòu)GPU,Blackwell結(jié)構(gòu)GPU單芯片訓練性能(FP8)是Hooper架構(gòu)的2.5倍,推理性能(FP4)是Hooper架構(gòu)的5倍。
Blackwell架構(gòu)的能耗表現(xiàn)也異常優(yōu)秀,在GTC大會現(xiàn)場,黃仁勛曾提到過一個舉證:
“訓練一個1.8萬億參數(shù)的模型,需要8000個Hopper GPU和15MW的電力,而2000個Blackwell GPU就能完成這項工作,耗電量僅為4MW。
除了性能與功耗外,Blackwell架構(gòu)真正的殺手锏是其使用了“第二代Transformer引擎”以及“第五代NVLink網(wǎng)絡(luò)技術(shù)”。
前者通過對每個神經(jīng)元使用4位而不是8位的精度,使得計算能力、帶寬和模型參數(shù)規(guī)模翻倍。后者則是大幅提升了GPU集群的通信效率,高支持多達576個GPU間的無縫高速通信,解決了萬億參數(shù)混合專家模型通信瓶頸的問題。
在科技巨頭們重金押注AI、自建數(shù)據(jù)中心的今天,Blackwell架構(gòu)芯片所展示出的特性,讓他們實在沒有理由拒絕。
不過,就是這樣一個具有劃時代意義的平臺,很可能存在設(shè)計缺陷。
正如上文所提到的,英偉達的設(shè)計思路是將兩枚Die封裝在一個GPU上,來實現(xiàn)性能的大幅度提升,但這也帶來了隱患。根據(jù)《The Information》援引知情人士的爆料,近幾周當臺積電的工程師為量產(chǎn)做準備工作時,發(fā)現(xiàn)這個架構(gòu)的連接處設(shè)計存在缺陷,會導致芯片的良率和產(chǎn)能受到較為嚴重的影響。
因此,原定的量產(chǎn)計劃被終止,英偉達需要重新對Blackwell進行版圖設(shè)計,而在此之后,臺積電也不得再進行一輪試生產(chǎn)工作。
誰會受傷?
同樣受這一設(shè)計缺陷影響的,可能還有同樣采用Blackwell架構(gòu)的英偉達RTX50系列顯卡。
根據(jù)新曝料,原本預計在今年第四季發(fā)布的Blackwell RTX 50系列,將在明年1月7-10日舉辦的CES 2025大展上才會發(fā)布。與B100/B200這類用于AI的高性能GPU顯卡不同,RTX系列是英偉達面向游戲玩家開發(fā)的顯卡序列,如果不同如期發(fā)布,所帶來的負面影響同樣不容小覷。
當然,受傷的還是硅谷的互聯(lián)網(wǎng)巨頭們。
在AI熱潮下,科技巨頭動輒豪擲數(shù)十億美元購買高性能計算卡也屢見不鮮,而在Blackwell問世后,這些公司似乎為其準備了更多的”彈藥“。
據(jù)新季度財報顯示,微軟、Alphabet、亞馬遜和Meta在2024年前六個月的資本支出大幅增加。不僅如此,為了在AI軍備賽中保持領(lǐng)先地位,這些巨頭還紛紛上調(diào)了支出指引,預示著對GPU的采購需求有增無減。
而這些熱錢,大部分都流向了“賣鏟人”英偉達。
作為英偉達大客戶之一,微軟內(nèi)部定下了到 2024 年底囤積 180 萬塊 AI 芯片的目標,計劃在明年 1 月向 OpenAI 提供采用 Blackwell 芯片的服務(wù)器。金融服務(wù)公司 DA Davidson 的分析師估計,去年微軟在英偉達芯片上花費了 45 億美元(325.6 億元人民幣),并計劃在 2024 年將擁有的 GPU 數(shù)量增加兩倍。
同樣摩拳擦掌的還有Meta,在Blackwell于GTC大會上亮相的第二天,扎克伯格就發(fā)布聲明表示,Meta計劃將使用Blackwell來訓練Llama模型。另據(jù)扎克伯格在今年年初的披露,Meta計劃在年底前儲備約60萬枚高性能GPU,其中采用Hopper架構(gòu)的H100芯片將占35萬枚,而剩下的25萬芯片,大概率會把位置留給Blackwell架構(gòu)芯片。
值得一提的是,號稱要自行研發(fā)AI芯片的馬斯克,也對Blackwell展現(xiàn)出了極大的興趣,他計劃在2025年購買30萬塊 B200 GPU,金額高達90億美元(652億元人民幣)。這批新GPU將升級X現(xiàn)有的 AI GPU 集群,該集群目前由10萬塊上一代H100 GPU組成。
隨著下一代大模型所需算力的翻倍提升,各巨頭間的算力軍備競賽又卷上了新高度,也讓AI巨頭對Blackwell B200的需求與日俱增,而這次英偉達出乎意料的延期,讓這場看不到盡頭的戰(zhàn)爭變得更加撲朔迷離。
本文鏈接:http://www.tebozhan.com/showinfo-17-105934-0.html英偉達攤上大事兒了
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com