近年來,人工智能數據中心的能耗問題引起廣泛關注。這一現象的主要原因之一是由于人工智能工作負載的不斷增加,人工智能GPU和處理器的迅速發展,以及其他硬件需求的提高。
在此過程中,人工智能GPU功耗的飆升引人注目,例如,2022年的H100功耗高達700W,相較于Nvidia 2020年的A100,增加了近一倍。AI服務器不僅運行高功耗的GPU,還需要處理電力的CPU和網卡。
AI工作負載,尤其是與訓練相關的負載,對計算資源有巨大需求,包括配備AI GPU、專用ASIC或CPU的服務器。人工智能集群的規模取決于模型的復雜性和規模,對功耗起著主導作用。更龐大的人工智能模型需要更多的GPU,從而增加了總體能源需求。例如,一個擁有22,000個H100 GPU的集群使用700個機架,總密度為80 kW,需要約31兆瓦的電力,不包括冷卻等基礎設施需求。
這些集群和GPU通常在整個訓練過程中幾乎滿負荷運行,確保平均能耗幾乎與峰值功耗相同。機架密度在30kW到100kW之間,具體取決于GPU的數量和型號。
網絡延遲在人工智能數據中心的功耗中也起著至關重要的作用。支持分布式訓練過程中強大GPU所需的高速數據通信,對復雜的網絡基礎設施至關重要。對高速網絡電纜和基礎設施的需求進一步增加了總體能耗。
考慮到人工智能工作負載對ASIC、GPU、CPU、網卡和SSD的高耗電需求,冷卻成為一項嚴峻挑戰。高機架密度和計算中產生的巨大熱量使得有效的冷卻解決方案至關重要。然而,空氣和液體冷卻方法的高成本也對用于人工智能工作負載的數據中心的功耗產生重大影響。
本文鏈接:http://www.tebozhan.com/showinfo-27-34391-0.htmlAI GPU 變得更加“饑餓”:功耗之謎與挑戰
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 印度平板電腦出貨量Q3環比增長41%