GPU Utils 發布了一份關于英偉達GPU——主要是H100的研究報告,試圖梳理有關GPU供應和需求的相關問題。在這篇主要針對美國市場的報告中,我們看到了目前阻礙大模型和人工智能發展的關鍵瓶頸GPU短缺是如何形成和發展的。
總的來說,GPU瓶頸的出現原因是多方面的,環環相扣的復雜工藝制造流程,半導體周期,對稀缺資源的搶占與恐慌乃至未曾預料到的人工智能的突然爆發,都讓GPU算力變得無比緊張。
樂觀地看,2024年這一瓶頸或許會有所緩解。
H100 GPU
數十萬張缺口,一百五十億需求
每個想要在人工智能爆發中分一杯羹的人都需要GPU。準確地說,是英偉達的A100和H100,它們在訓練和推理大模型中扮演關鍵角色。如果要想要從頭訓練大模型,至少需要上千張A100或H100,而推理和微調大模型也至少需要儲存100張。
具體到每家的數量上,報告匯總了一些數據:GPT4在1萬到2.5萬塊A100上訓練,Meta有2.1萬塊A100,特斯拉有7000塊,Stability AI有5000塊,谷歌云大概有2.5萬塊H100,微軟Azure 有1萬到4萬塊,甲骨文可能也有同樣多的H100。值得一提的是,Azure的GPU基本都用來供應OpenAI的訓練了。
而根據馬斯克的說法,GPT5的訓練可能會用到3萬到5萬張H100,因此對未來的估計上,報告指出OpenAI可能需要5萬張H100,Meta至少需要2.5萬張(也有人說實際上需要10萬乃至更多),所有的云服務廠商,微軟、谷歌云和亞馬遜云以及甲骨文各需要3萬張,私有云服務商,比如剛剛融資的CoreWeave等總需求是10萬張,而像Claude的開發者Anthropic這樣的初創公司也都至少需要1萬張GPU。
另外,一些金融公司比如JP Morgan等也在部署A100或H100,因此總體上看,對H100的需求超過了43萬張。
這還是不算中國市場的情況,由于制裁原因,字節跳動、百度、騰訊和阿里巴巴只能大量購買A100和H100的替代產品A800與H800,這一部分的需求沒有列入其中,根據《金融時報》的說法,其總額高達50億美金。
如果將這些數字相加,這就是目前英偉達面對的,總計規模高達200億美元的GPU需求。
H100家族,從單個GPU到組合擴展而成的工作站和服務器。
黃仁勛沒有騙我,買的越多,省得越多
作為A100的更新版,H100擁有著更好的性能,盡管它的價格更昂貴,單張約為3.5萬美元。
根據產量需求和成本,大部分企業都把A100和H100混用以節省成本。具體來說,在大模型訓練環節往往會使用3.2Tb/s 無限帶寬(IB)的H100 GPU,在模型推理環節,則往往也可以使用A100。
相比A100,H100的升級主要體現在具有更低的緩存延遲和FP8計算能力,這兩者都顯著提升了顯卡處理模型的效率。另外,H100還具有更好的拓展性,方便實現大規模部署。
總的來說,H100的16位訓練速度快了2.3倍,推理速度快了3.5倍,而它的成本——根據報告所說,僅是A100的1.5倍到2倍。
這正是黃仁勛在不同場合都反復強調的,the more you buy, the more you save. 買的越多,省得越多。
關于H100芯片的組合形式有多種,包括英偉達自己設計的DGX H100 ,但市場上大部分公司都選擇購買8個GPU版本的HGX H100 服務器,它是由英偉達的合作伙伴們生產的,價格大致在36萬到38萬美元之間。
HGX也有兩種版本,配備SXM接口或者PCIe接口,報告指出市場上70%到80%的需求都是SXM H100,因為這種接口可以實現大的吞吐量并且不需要連接電源。
市場對H100的趨之若鶩,與競爭對手形成了鮮明的對比。
英偉達官方給出的關于訓練GPT3時A100和H100的不同表現對比
沒有對手
根據英偉達的更新節奏,直到2024年底或2025年,H100的升級版才會到來,在此之前它將繼續統領大模型市場。
競爭對手并沒有坐以待斃,比如AMD剛剛推出了名為MI300系列的芯片,英特爾也有名為Gaudi2的加速計算芯片,它們至少在理論上都是英偉達的競爭對手。
然而在實際上,他們面對著比英偉達更大的問題。
報告中主要指出AMD的問題。首先重新配置AMD的設備——就算它可以完美適用大模型訓練任務,也需要開發和調試的時間,這意味著在時間上會落后于競爭對手。
其次,一個模型的訓練成本接近3億美元,對芯片的需求往往會超過1萬張,沒有人會冒風險大規模使用除了英偉達以外的芯片。
后,限制英偉達GPU的瓶頸——復雜的生產工藝,同樣也在限制著AMD的產量——MI250同樣難以獲得。
至于另一個競爭對手Gaudi2,由于英特爾自己擁有工廠因此它或許在產量上有比較優勢,但Gaudi2是一款幾乎全新的芯片,針對它的研究和測試還非常少,事實上英特爾自己還在對其進行各種配套開發和優化,預計到今年下半年晚些時候才能調試完畢,而這時H100已經上市一年多了。
因此總結下來,目前為止H100就是是訓練大模型佳的GPU,沒有之一。
H100 NVL
GPU瓶頸到底在哪里?
目前,H100的供應已經相當短缺,有傳言說微軟Azure和谷歌云的容量實際上已經快用完了,亞馬遜云也面對同樣的情況,傳言目前下單需要等數月乃至半年。
導致稀缺的原因是多方面的,根本的是,GPU是一項極端復雜的技術,需要世界上先進的生產工藝,而掌握這項工藝的工廠——臺積電,它的產能是有限的。
目前H100都由臺積電代工,使用4N工藝,也就是增強型5納米制程(相比之下A100使用的是N7),這幾乎是目前復雜的芯片制作工藝,從開始生產到出售給客戶,H100中間經歷的生產、包裝和測試環節一共需要6個月左右,這就意味著對H100的生產需要英偉達和臺積電進行提前的布局,這在半導體行業來說是經常的事,但這一次英偉達和臺積電顯然都對H100需求出現了錯誤的判斷。
這很好理解,因為ChatGPT爆發是去年底的事,那時關于今年的生產計劃(至少是上半年的計劃)已經規劃好了,臺積電總體的生產能力是有限的,還需要在不同的大客戶之間分配,而產能爬坡也需要一個很長的過程——不要忘記生產H100這種GPU包含著全世界復雜的工藝流程。
報告中特別指出生其中之一的瓶頸在于所謂CoWoS封裝(Chip on wafer on Substrate 芯片、晶圓、基板封裝),它目前的月產量是8000片,今年底有望提升至 11,000 片, 2024 年底則達到每月 14,500 至 16,600 片左右的水平,也就是說,想要提升一倍的產量,幾乎需要一年半的時間,這當然也是由于生產工藝異常復雜導致。
這直接影響了H100的生產,更何況并不是只有一家在使用CoWoS封裝工藝,英偉達的競爭對手AMD以及博通、思科和賽靈思等都同樣在使用這種工藝制作芯片,又一次,臺積電的產能瓶頸限制了GPU的供應。
另外,H100所使用的HBM3系列內存也是一個生產難點。報告指出英偉達主要在使用SK海力士的內存,后者是這一領域的領軍者,特別是在HBM內存的研發上。HBM技術直接把內存堆棧放在GPU芯片上,實現了更高的帶寬和更低的功耗。今年4月20日,SK海力士宣布在全球率先研發出12層堆疊的HBM3內存,單顆容量達到24GB。內存容量越大,意味著GPU可以裝載下更大的模型,然而HBM3內存的生產過程也十分復雜,產量提升同樣困難重重,實際上另外幾家芯片大廠,比如三星和美光,都很難提升HBM內存的產量,據說SK海力士正在根據英偉達的要求增產,在剛剛過去的SIGGRAPH 2023 上,黃仁勛發布了GH200超級芯片的更新版, 采用了增強的HBM3E內存,這可以看作是英偉達在內存領域同供應商密切協作的一個例子。
裝有8個H100 的 HGX 服務器
稀缺性螺旋、配貨機制與GPU金融化
通過和臺積電以及上下游供應鏈的積極協調,H100的產量會逐漸提升——英偉達在財報電話會上談到了這一點,盡管沒有對具體數字做任何承諾。
然而當我們理解GPU瓶頸的時候,并不能簡單把它等同于產能瓶頸,這是報告中沒有明確指出,但又十分顯而易見的一點——這種稀缺同時還由各種市場和非市場因素造成。
當然,首要的還是英偉達本身對產品的分配。GPU本就稀缺,因此在服務客戶的角度上,英偉達推行了一套和奢侈品配貨制度頗為類似的機制——由英偉達來挑選自己的客戶。
報告中指出,哪些客戶能拿到多少GPU有賴于英偉達的規劃,而英偉達更傾向于為那些沒有開發競品芯片的企業優先分配GPU——谷歌云、亞馬遜云和Meta都在開發自己的芯片,因此英偉達似乎更愿意和甲骨文合作,DGX云基礎架構的第一個合作對象就是甲骨文。
其次,英偉達希望了解終的客戶是誰,它更傾向于為大企業和強大的初創公司提供算力,比如說英偉達投資的AI公司 Inflection 就擁有一個巨大的H100集群,而小型云服務商CoreWeave則擁有比谷歌云更多的H100。
CoreWeave完全使用英偉達的GPU,同時也不打算自己做芯片,因此更得英偉達青睞,英偉達甚至還參與了它的B輪融資。
CoreWeave的GPU資源有多富?它使用基于H100的云服務訓練GPT3大模型只用了11分鐘,相比之下OpenAI用一萬張A100訓練了14.8天。
CoreWeave提供的價格列表,HGX H100 每小時價格為4.76美元。
基于這種配貨的機制,市場上的GPU流動更不平衡,GPU變得不是一個只要有錢就能買到的東西,這助長了另一種稀缺性——囤積居奇。
大模型的算法和數據的技術難度相對比較透明,相比之下,算力是一道扎實的無法逾越的護城河,有多少GPU直接決定了AI公司的能力強弱,因此GPU囤積變成了許多公司的一種下意識行為——寧可備而不用,不可用而不備,這當然加劇了GPU的稀缺。
遲遲不見提升的產量和坊間各種傳聞(比如上面所謂的配貨機制,它從來沒得到過官方的證實——就像愛馬仕從來也不承認有所謂配貨機制一樣)則造成了一種稀缺的預期,就像對通貨膨脹的預期會真的導致通貨膨脹一樣,對缺貨的預期進一步加劇了缺貨。
這甚至某種程度上導致了GPU變成了一種戰略資源,進而成為一種金融衍生品。CoreWeave 在八月初剛剛進行了一筆價值23億美元的債務融資,抵押物正是手中的H100,如果這筆錢純粹是基于對H100的市場均價(這里取37萬美元)估出來的話,意味著CoreWeave手中有超過6000臺HGX H100,也就是近5萬張顯卡。
在去年的GTC上,黃仁勛介紹H100
結語
GPU的缺貨嚴重影響了AI的發展,OpenAI 首席執行官Sam Altman說過,使用我們產品的人越少對我們反而越好。
當然你可以說Sam Altman在得了便宜賣乖(事實上也確實是),但某種程度上,這也是他的真心話,算力瓶頸在限制著所有人,這足以說明人類對AI突破的到來多么缺乏準備。
生成式AI和transformer架構都不是新的發現,它們的理論在很早就在學界廣為流傳,業界也不乏大舉投入其中的公司(當然,OpenAI是堅決的那個),然而直到ChatGPT和Stable Diffusion出現之前,它們不過是人們認知中通往人工智能的某種方向而已,類似的方向還有很多,而并沒有人真的確定哪條道路是正確的。
由此我們可以看出英偉達的布局是多么具有前瞻性,把原本用于讓計算機顯示圖形的并行計算應用于神經網絡,這讓英偉達比其它任何人都更早地積累了一系列相關技術、算法以及硬件設備,并由此創造了CUDA生態,現在它們共同支撐起了英偉達萬億市值,成為一道短期內很難攻破的企業護城河。
正如GPU的產能短期內恐怕得不到解決一樣,AI產業短期內依然要被英偉達的資源所左右,英偉達正在決定生成式AI的未來。