近幾年,生成式AI一浪高過一浪,對于各種AI大模型的訓練、推理也提出了越來越苛刻的要求。
一般而言,推理工作不需要龐大的GPU加速器集群,更適合交給CPU處理器,尤其專門面向服務器和數據中心的CPU產品。
所謂推理(Inference),就是將訓練好的AI模型應用于新的數據和場景。模型利學習到的規律進行預測、分類或生成新內容,也就是讓AI在實際應用中落地的過程(是騾子是馬拉出來遛遛),比如醫療診斷、自動駕駛、自然語言理解等領域。
推理并不需要超強的算力,但因為涉及各種各樣的場景和應用,更強調硬件的通用型,CPU天然就是干這活兒的,尤其是強大的服務器型CPU。
說到服務器,相信對大多數人而言既陌生又熟悉。陌生的是鮮有人能接觸它們、使用它們、深入了解它們;熟悉的是我們大多數網絡服務都依賴于它們提供支撐,也經常聽說相關產品和技術的介紹。
所謂服務器,就是負責執行計算任務、處理請求、存儲數據以及提供各種服務的平臺。
任何服務器都由多個單元模塊組成,而把它們有機地組織在一起的,叫做“服務器機頭”,簡稱“機頭”,也就是我們常說的“火車跑得快,全憑車頭帶”。
所謂機頭,就是用于管理和協調計算集群的服務器節點,通常位于系統架構的前端,用于處理客戶端的初始請求,執行負載均衡、任務調度、資源管理、集群狀態監控等工作。
它包括多個硬件組件,比如CPU處理器、內存、硬盤、主板、網絡接口等,一定程度上類似我們使用的PC。
CPU處理器則是機頭中的核心硬件組件,也是整個服務器的“大腦”,決定了服務器處理任務的速度和效率。
在大規模數據中心或計算集群中,多個服務器節點可以構成一個服務器集群,而每個機頭有一個或多個CPU,彼此協調處理大量的并發任務。
優秀的CPU可以支撐優秀的機頭,優秀的機頭可以支撐優秀的服務器,而優秀的服務器可以優秀地完成AI推理工作。
圖源:Pixabay
說到服務器CPU,近些年來AMD EPYC大出風頭,憑借領先的產品規格和性能、超高的能效和穩定性、出色的性價比,一直獨領風騷。
根據市調機構Mercury Research的數據,截止2024年第二季度,AMD EPYC已經占據整個服務器CPU市場的24.1%,按照收入計算份額高達33.7%,雙雙創下新紀錄。
新一代的Genoa EPYC 9004系列,更是達到了全新的高度,有著卓越的架構設計(Zen 4)、業界高的計算密度、高的性能、高的效率。
或者直白地說有,該系列有著多的核心、大的緩存、高的頻率,以及極為豐富的技術特性。
AMD的優良傳統也沒忘,性價比極高,在服務器和數據中心領域是無可爭議的首選。
在AI推理應用中,AMD EPYC 9004系列的優勢十分明顯,而且非常有針對性。
一是超多的核心、超高的頻率。
EPYC 9004系列多做到了96核心192線程,可以更高效地并行處理多個推理工作負載,大大提升效率。
同時提供16/24/32/48/64/84等不同核心數,可以根據實際需求靈活選擇核心數量,提高投入產出比。
核心多了,頻率也沒丟,基礎頻率高可達4.1GHz,而加速頻率高能夠跑到4.4GHz,即便是96核心型號也能加速到3.7GHz,而且支持更多核心同時達到高頻率。
這對于服務器CPU來說相當罕見,這無疑能大大加速推理工作的速度,無論單個任務獨自進行還是多個任務并行處理都得心應手。
二是超大的緩存。
對比上代產品Milan EPYC 9003系列,每個核心的二級緩存翻倍至1MB,每八個核心共享32MB三級緩存,總計多可達96MB二級緩存、384MB三級緩存。
集成了3D V-Cache堆疊緩存的Genoa-X,更是可以讓每八核核心共享96MB三級緩存,總容量多達驚人的1152MB,史上第一次超越1GB。
大容量緩存,可以給推理業務提供更強的助力,提高指令命中率,降低數據轉移和通信延遲。
三是超高的內存頻率和帶寬。
EPYC 9004系列不僅支持多達128條PCIe 5.0高速連接通道,還支持12個DDR5內存通道,高頻率4800MT/s,可提供460.8GB/s的驚人帶寬,雙路系統的帶寬可超過960GB/s。
內存性能對于推理工作也至關重要,可以容納更大的模型、更多的負載。
EPYC 9004系列型號眾多,針對不同的應用場景,需要篩選匹配的型號,以發揮大性能、高效率。
針對AI推理應用,有三個型號非常合適:
EPYC 9534:
64核心128線程,三級緩存256MB,基礎頻率2.45GHz,全核加速頻率3.55GHz,高頻率3.7GHz,默認熱設計功耗280W。
多核心,大緩存,頻率也不低,適合經常并行執行多個乃至大量推理任務,可以保證足夠高的效率。
EPYC 9454:
48核心96線程,三級緩存256MB,基礎頻率2.75GHz,全核加速頻率3.65GHz,高頻率3.8GHz,默認熱設計功耗290W。
核心、緩存、頻率都非常均衡,如果推理任務多變,選它就對了,多任務、單任務都可以輕松應對。
EPYC 9334:
32核心48線程,三級緩存128MB,基礎頻率2.7GHz,全核加速頻率3.85GHz,高頻率3.9GHz,默認熱設計功耗210W。
核心數依然不少,頻率相對更高,功耗也低得多,適合少量但負載相對較高的推理任務,可以專心快速完成。
結語
總的來說,生成式AI的時代,我們經常談論AI訓練,談論幾千、幾萬塊加速卡的壯觀,但不要忘了AI推理同樣至關重要。
它是對訓練成果的檢驗,是AI的實踐應用,而且不需要龐大的計算集群,傳統的CPU機頭組成的服務器集群就可以輕松應對。
AMD EPYC歷經四代發展,已經成為全能型選手,幾乎可以勝任你能想到的任何計算工作,用于AI推理自然也是佳選擇。
多核心、大緩存、高頻率、高內存、高能效、高性價比……AMD EPYC憑借自己的優秀素質,正在各行各業發揮力量,也是生成式AI時代不可或缺的支柱。
本文鏈接:http://www.tebozhan.com/showinfo-24-113745-0.htmlAI推理 CPU的拿手好戲!細說AMD EPYC 9004的三大優勢
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com