隨著生成式AI、預(yù)測式AI的浪潮一波高過一波,工作負載的類型越來越豐富、復(fù)雜度越來越高,對于AI服務(wù)器性能、能效的需求也是水漲船高。
每每說到AI服務(wù)器、AI工作站、AI一體機等裝備,很多人的第一反應(yīng)就是高算力的AI GPU加速器。
它確實是整個AI系統(tǒng)的主角,承擔(dān)著繁重的使命,但是別忘了,只有GPU加速器是無法獨自支撐整個系統(tǒng)的,而任何計算系統(tǒng)都離不開CPU處理器的坐鎮(zhèn)。
CPU處理器作為任何計算系統(tǒng)的中樞和大腦,在AI系統(tǒng)中也起著不可替代的作用,只是一貫比較低調(diào)罷了。
如果說GPU加速器是AI系統(tǒng)中在臺前炫技的耀眼明星,CPU處理器就是隱藏幕后、默默風(fēng)險的大管家,協(xié)調(diào)著整個系統(tǒng)的高效運行,尤其是保障GPU加速器的各項需求可以得到全面滿足,強大的算力可以高效釋放。
因此,這個時候的CPU處理器,我們一般稱之為“主控CPU”。
采用合適、匹配的主控CPU搭檔AI加速器,組成高效的AI加速系統(tǒng),可以在工作負載性能、總體擁有成本(TCO)之間,達到理想的平衡。
在AI加速系統(tǒng)中,主控CPU負責(zé)通過提供高效的任務(wù)管理,以及出色的預(yù)處理性能,來優(yōu)化處理性能和資源利用率,這對于確保AI模型訓(xùn)練流程中的數(shù)據(jù)高效供給、維持AI處理器的理想運行狀態(tài),都是至關(guān)重要的。
主控CPU作為AI加速系統(tǒng)的“中樞神經(jīng)”,可以執(zhí)行管理、優(yōu)化、預(yù)處理、處理、卸載等各種任務(wù),從而提高系統(tǒng)性能和能效。
Intel的至強系列處理器,尤其是新一代至強經(jīng)系列,無論是根據(jù)各種AI基準測試,還是根據(jù)全球客戶的實際部署經(jīng)驗,都可以說是強大、高效AI加速系統(tǒng)的主控CPU的理想之選。
NVIDIA新、強的DGX B300系統(tǒng),就選擇了Intel新款至強6776P來作為主控CPU,而去年的MGX系統(tǒng)曾使用至強6767——Intel也是NVIDIA唯一的主控CPU合作伙伴。
至強6為何如此之強?
我們可以從六個不通過方向,逐一看看AI加速系統(tǒng)對主控CPU的需求,以及至強6系列是如何滿足的。
1、AI加速系統(tǒng)需要非常強大、靈活的IO性能。
至強6系列可以支持多達96條PCIe 5.0通道,比上代增加了20%,雙路系統(tǒng)就是192條,因此帶寬超高、數(shù)量管夠,可以靈活分配給不同的加速器、擴展卡。
2、AI加速系統(tǒng)需要盡可能高的單線程性能。
至強6系列不但擁有多128個性能核心、504MB海量三級緩存,還具備強大的單線程性能,并支持不同的睿頻加速技術(shù)。
比如PCT(優(yōu)先核心睿頻),可以把少部分核心加速到更高的頻率來服務(wù)相應(yīng)的GPU,多支持8個核心。
比如SST,可以針對不同的核心配置分配不同的頻率,使其擁有不同的性能。
3、AI加速系統(tǒng)需要盡可能高的內(nèi)存容量與帶寬。
至強6系列不但支持更高頻率的DDR5-6400,還獨家率先支持MRDIMM內(nèi)存,頻率可高達8800MHz,帶寬進一步提升30%,對比上代領(lǐng)先2.3倍,對于內(nèi)存敏感性AI負載尤其有利。
再加上多達12個內(nèi)存通道,至強6系列可提供無與倫比的內(nèi)存帶寬與容量,單路系統(tǒng)高支持3TB。
NVIDIA DGX B300系統(tǒng),就選擇了每通道兩條DIMM(2LDPC)、5200MHz頻率的方案,主要是為了實現(xiàn)更大的內(nèi)存容量。
另外,至強6系列還支持CXL,可保持CPU內(nèi)存空間與AI加速器內(nèi)存之間的一致性,實現(xiàn)高性能資源共享,降低整體系統(tǒng)成本。
4、AI加速系統(tǒng)需要CPU做好數(shù)據(jù)預(yù)處理和卸載。
至強6系列支持AMX(高級矩陣擴展)指令,新增支持FP16數(shù)據(jù)格式,非常適合這項工作,尤其是隨著MoE、MLP模型的出現(xiàn)和流行,在CPU上卸載部分工作越來越流行。
5、AI加速系統(tǒng)需要強大的RAS。
RAS指的是可靠性、可用性、可維護性,對于工作站、服務(wù)器、數(shù)據(jù)中心硬件是必不可少的屬性,至強6當(dāng)然也少不了,有了它就可以大大減少大規(guī)模停機時間,避免高額損失。
RAS技術(shù)支持多項高級管理功能,包括遙測、平臺監(jiān)控、共享資源控制、實時固件更新等,匯聚了平臺合作伙伴、ISV獨立軟件開發(fā)商、解決方案集成商的豐富專業(yè)知識與經(jīng)驗。
6、AI加速系統(tǒng)需要靈活的形態(tài)。
至強6系列支持DC-MHS全球標(biāo)準,無論是NVIDIA MGX還是DGX,雙方都有合作,新的就是DGX B300,由雙方共同打造,開展了大量的技術(shù)驗證工作。
至強6系列家族中,有三款特殊型號是專門用于主控CPU的。
它們均基于P核即性能核的設(shè)計,目前的主控CPU均是如此,未來是否會有E核即能效核設(shè)計,還要觀察市場需求的變化。
其中,NVIDIA DGX B300采用的是至強6776P,并且是雙路配置。
至強6776P配置了64個核心(128線程),基準頻率2.3GHz,全核睿頻3.6GHz,大睿頻3.9GHz,PCT睿頻可以在多8個核心上跑到4.6GHz,比傳統(tǒng)SKU再次提高了多達700MHz。
另外,它配備336MB緩存,支持八通道DDR5-6400、MRDIMM-8000內(nèi)存,可提供88條PCIe 5.0通道,熱設(shè)計功耗350W。
這里解釋一下幾種不同的睿頻頻率:
全核睿頻即All Core Turbo,是指所有核心處于活躍狀態(tài)時,所能運行的高頻率,適合作為虛擬機等場景,此時需要每一個核心跑在盡可能高的性能上。
大睿頻即Max Turbo,是在傳統(tǒng)SKU中能夠達到高的睿頻,它假設(shè)一半核心活躍、另一半核心休眠,活躍核心就能夠運行在更高的頻率,也就是Max Turbo對應(yīng)的頻率。
優(yōu)先核心睿頻即Priority Core Tubo,是指只開啟更少量的核心,一般2-8個,讓它們進一步加速到更高的頻率,從而以更高的性能,滿足AI加速系統(tǒng)中GPU、I/O等的苛刻需求,避免出現(xiàn)系統(tǒng)瓶頸。
至于使用哪些核心進行加速,可以在啟動前使用BIOS設(shè)定,也可以在運行中通過SST-TF工具實時設(shè)定。
更低端的至強6774P也是64核心,除了基準頻率提高到2.5GHz,與至強6776P大的不同就是僅支持單路但可提供多達136個IO通道,擴展經(jīng)更加強悍。
更高端的至強6962P擁有72核心144線程、432MB緩存,基準頻率就有2.7GHz,全核睿頻也是3.6GHz,大睿頻也是3.9GHz,PCT睿頻則是4.4GHz。
它還支持12通道內(nèi)存,可提供96個PCIe通道,熱設(shè)計功耗來到了500W。
以上三款都是面向所有客戶的開放產(chǎn)品,屬于產(chǎn)品規(guī)劃和路線圖的一部分,未來不排除根據(jù)市場需求或者客戶定制化需求,推出更多產(chǎn)品。
剛才多次提高到NVIDIA DGX B300 AI加速系統(tǒng),這就是它的總覽圖,屬于高端的DGX,專為AI訓(xùn)練等應(yīng)用而生。
它配備了雙路至強6776P主控CPU處理器,彼此通過UPI高速總線互連,每路都是多8個PCT睿頻核心,客戶在使用的時候可以根據(jù)需要定制選擇8個、6個、4個或2個核心用于PCT睿頻。
每一路至強6776P之下,通過兩個NIC高速網(wǎng)卡,連接四塊AI GPU,整個系統(tǒng)就是八塊AI GPU,彼此通過NVLink高速總線互連。
這套系統(tǒng)在選擇主控CPU時采取了比較平衡的設(shè)計,但性能依然是業(yè)界領(lǐng)先的,I/O性能、RAS性能等等也都很均衡,無疑是個理想的選擇。
當(dāng)然,我們知道,NVIDIA AI加速系統(tǒng)中已經(jīng)普遍使用自行研發(fā)的Grace CPU處理器,來搭配AI GPU加速器。
事實上,目前市場上,許多AI系統(tǒng)提供商都在使用自研主控CPU來配合AI GPU。
從Intel的角度來看,其服務(wù)方向是為客戶提供更多選擇,而且作為開放系統(tǒng),始終秉持開放態(tài)度,為主控CPU提供佳選擇,以滿足客戶的多樣化需求。
NVIDIA DGX B300產(chǎn)品選擇了Intel至強6作為主控CPU,而且這并非測試或者試驗產(chǎn)品,而是一款商業(yè)化的成熟產(chǎn)品,無疑是對Intel至強產(chǎn)品性能和兼容性的有力認可。
本文鏈接:http://www.tebozhan.com/showinfo-24-158397-0.htmlIntel至強6:AI江湖的幕后大佬、NVIDIA的唯一伙伴
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com