11月10日,近日有消息稱,芯片巨頭英偉達(dá)(NVIDIA)將基于H100推出三款針對(duì)中國(guó)市場(chǎng)的AI芯片,以應(yīng)對(duì)美國(guó)最新的芯片出口管制。
規(guī)格文件中顯示,英偉達(dá)即將向中國(guó)客戶推出新產(chǎn)品分別名為HGX H20、L20 PCle、L2 PCle,基于英偉達(dá)的Hopper和Ada Lovelace架構(gòu)。從規(guī)格和命名來看,三款產(chǎn)品針對(duì)的是訓(xùn)練、推理和邊緣場(chǎng)景,最快將于11月16日公布,產(chǎn)品送樣時(shí)間在今年11月至12月,量產(chǎn)時(shí)間為今年12月至明年1月。
鈦媒體App從多位英偉達(dá)產(chǎn)業(yè)鏈公司了解到,上述消息屬實(shí)。
鈦媒體App還獨(dú)家了解到,英偉達(dá)的這三款 AI 芯片并非“改良版”,而是“縮水版”。其中,用于 AI 模型訓(xùn)練的HGX H20在帶寬、計(jì)算速度等方面均有所限制,理論上,整體算力要比英偉達(dá) H100 GPU芯片降80%左右,即H20等于H100的20%綜合算力性能,而且增加HBM顯存和NVLink互聯(lián)模塊以提高算力成本。所以,盡管相比H100,HGX H20價(jià)格會(huì)有所下降,但預(yù)計(jì)該產(chǎn)品價(jià)格仍將比國(guó)內(nèi) AI 芯片910B高一些。
“這相當(dāng)于將高速公路車道擴(kuò)寬,但收費(fèi)站入口未加寬,限制了流量。同樣在技術(shù)上,通過硬件和軟件的鎖,可以對(duì)芯片的性能進(jìn)行精確控制,不必大規(guī)模更換生產(chǎn)線,即便是硬件升級(jí)了,性能仍然可以按需調(diào)節(jié)。目前,新的H20已經(jīng)從源頭上‘卡’住了性能。”一位行業(yè)人士這樣解釋新的H20芯片,“比如,原先用H100跑一個(gè)任務(wù)需要20天,如今H20再跑可能要100天。”
盡管美國(guó)發(fā)布新一輪芯片限制措施,但英偉達(dá)似乎并沒有放棄中國(guó)巨大的 AI 算力市場(chǎng)。
那么,國(guó)產(chǎn)芯片是否可以替代?鈦媒體App了解到,經(jīng)過測(cè)試,目前在大模型推理方面,國(guó)內(nèi) AI 芯片910B僅能達(dá)到A100的60%-70%左右,集群的模型訓(xùn)練難以為繼;同時(shí),910B在算力功耗、發(fā)熱等方面遠(yuǎn)高于英偉達(dá)A100/H100系列產(chǎn)品,且無法兼容CUDA,很難完全滿足長(zhǎng)期智算中心的模型訓(xùn)練需求。
截止目前,英偉達(dá)官方對(duì)此并未做出任何評(píng)論。
據(jù)悉,今年10月17日,美國(guó)商務(wù)部工業(yè)和安全局(BIS)發(fā)布了針對(duì)芯片的出口管制新規(guī),對(duì)包括英偉達(dá)高性能AI芯片在內(nèi)的半導(dǎo)體產(chǎn)品施加新的出口管制;限制條款已經(jīng)于10月23日生效。英偉達(dá)給美國(guó)SEC的備案文件顯示,立即生效的禁售產(chǎn)品包括A800、H800和L40S這些功能最強(qiáng)大的AI芯片。
另外,L40和RTX 4090芯片處理器保留了原有30天的窗口期。
10月31日曾有消息稱,英偉達(dá)可能被迫取消價(jià)值50億美元的先進(jìn)芯片訂單,受消息面影響,英偉達(dá)股價(jià)一度大跌。此前,英偉達(dá)為中國(guó)專供的A800和H800,由于美國(guó)新規(guī)而無法正常在中國(guó)市場(chǎng)銷售,而這兩款芯片被稱為A100及H100的“閹割版”,英偉達(dá)為了符合美國(guó)之前的規(guī)定而降低了芯片性能。
10月31日,中國(guó)貿(mào)促會(huì)新聞發(fā)言人張?chǎng)伪硎荆婪叫掳l(fā)布的對(duì)華半導(dǎo)體出口管制規(guī)則,進(jìn)一步加嚴(yán)了人工智能相關(guān)芯片、半導(dǎo)體制造設(shè)備對(duì)華出口的限制,并將多家中國(guó)實(shí)體列入出口管制“實(shí)體清單”。美國(guó)這些措施嚴(yán)重違反了市場(chǎng)經(jīng)濟(jì)原則和國(guó)際經(jīng)貿(mào)規(guī)則,加劇了全球半導(dǎo)體供應(yīng)鏈撕裂與碎片化風(fēng)險(xiǎn)。美國(guó)自2022年下半年開始實(shí)施的對(duì)華芯片出口禁令正在深刻改變?nèi)蚬┬瑁斐?023年芯片供應(yīng)失衡,影響了世界芯片產(chǎn)業(yè)格局,損害了包括中國(guó)企業(yè)在內(nèi)的各國(guó)企業(yè)的利益。
英偉達(dá)HGX H20、L20、L2與其他產(chǎn)品的性能參數(shù)對(duì)比
鈦媒體App了解到,新的HGX H20、L20、L2三款 AI 芯片產(chǎn)品,分別基于英偉達(dá)的Hopper和Ada架構(gòu),適用于云端訓(xùn)練、云端推理以及邊緣推理。
其中,后兩者L20、L2的 AI 推理產(chǎn)品有類似的“國(guó)產(chǎn)替代”、兼容CUDA的方案,而HGX H20是基于H100、通過固件閹割方式 AI 訓(xùn)練芯片產(chǎn)品,主要替代A100/H800,國(guó)內(nèi)除了英偉達(dá),模型訓(xùn)練方面很少有類似國(guó)產(chǎn)方案。
文件顯示,新的H20擁有CoWoS先進(jìn)封裝技術(shù),而且增加了一顆HBM3(高性能內(nèi)存)到96GB,但成本也隨之增加240美元;H20的FP16稠密算力達(dá)到148TFLOPS(每秒萬億次浮點(diǎn)運(yùn)算),是H100算力的15%左右,因此需要增加額外的算法和人員成本等;NVLink則由400GB/s升級(jí)至900GB/s,因此互聯(lián)速率會(huì)有較大升級(jí)。
據(jù)評(píng)估,H100/H800是目前算力集群的主流實(shí)踐方案。其中,H100理論極限在5萬張卡集群,最多達(dá)到10萬P算力;H800最大實(shí)踐集群在2萬-3萬張卡,共計(jì)4萬P算力;A100最大實(shí)踐集群為1.6萬張卡,最多為9600P算力。
然而,如今新的H20芯片,理論極限在5萬張卡集群,但每張卡算力為0.148P,共計(jì)近為7400P算力,低于H100/H800、A100。因此,H20集群規(guī)模遠(yuǎn)達(dá)不到H100的理論規(guī)模,基于算力與通信均衡度預(yù)估,合理的整體算力中位數(shù)為3000P左右,需增加更多成本、擴(kuò)展更多算力才能完成千億級(jí)參數(shù)模型訓(xùn)練。
兩位半導(dǎo)體行業(yè)專家向鈦媒體App表示,基于目前性能參數(shù)的預(yù)估,明年英偉達(dá)B100 GPU產(chǎn)品很有可能不再向中國(guó)市場(chǎng)銷售。
整體來看,如果大模型企業(yè)要進(jìn)行GPT-4這類參數(shù)的大模型訓(xùn)練,算力集群規(guī)模則是核心,目前只有H800、H100可以勝任大模型訓(xùn)練,而國(guó)產(chǎn)910B的性能介于A100和H100之間,只是“萬不得已的備用選擇”。
如今英偉達(dá)推出的新的H20,則更適用于垂類模型訓(xùn)練、推理,無法滿足萬億級(jí)大模型訓(xùn)練需求,但整體性能略高于910B,加上英偉達(dá)CUDA生態(tài),從而阻擊了在美國(guó)芯片限制令下,國(guó)產(chǎn)卡未來在中國(guó)AI芯片市場(chǎng)的唯一選擇路徑。
最新財(cái)報(bào)顯示,截至7月30日的一個(gè)季度內(nèi),英偉達(dá)135億美元的銷售額中,有超過85%份額來自美國(guó)和中國(guó),只有大約14%的銷售額來自其他國(guó)家和地區(qū)。
受H20消息影響,截至美股11月9日收盤,英偉達(dá)股價(jià)微漲0.81%,報(bào)收469.5美元/股。近五個(gè)交易日,英偉達(dá)累漲超過10%,最新市值達(dá)1.16萬億美元。
本文鏈接:http://www.tebozhan.com/showinfo-24-20955-0.html英偉達(dá)阻擊國(guó)產(chǎn)AI芯片,“中國(guó)特供版”已成“縮水版”
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com