2023年12月15日,英特爾正式發布了第一代酷睿Ultra處理器平臺,也就是首個基于Intel 4制程工藝(7nm)打造的移動級處理器平臺,其核心代號為Meteor Lake,產品系列貼標設計也采用了全新方案。
同時在命名方面也不再使用酷睿i3、i5、i7,而是采用酷睿Ultra 3、5、7+三位數字+H的命名,如酷睿Ultra 7 155H。
本次首發產品型號如下:
酷睿Ultra家族首發包含了28W的H系列以及15W的U系列,前者包含酷睿Ultra 7和Ultra 5的四款產品,分別采用16核22線程以及14核18線程設計,最高支持5GHz睿頻加速。后者同樣是酷睿Ultra 7和Ultra 5各兩款產品,均采用12核14線程設計,最高睿頻4.9GHz。
此外,酷睿Ultra 9 185H以及酷睿Ultra 7 164U和Ultra 5 134U三款型號將在2024年一季度發售。
相對于以往的酷睿平臺處理器,全新的酷睿Ultra可以說是全面革新。新的制程工藝、新的架構設計、新的功能特性等等,可以說是與以往的酷睿處理器有著非常顯著的區別。
得益于整體制程、架構的變化,英特爾酷睿Ultra平臺也擁有了不少全新特性,如基于Foveros 3D封裝技術的高性能混合架構,模塊化的計算單元等等。
同時它還升級了英特爾銳炫GPU,支持低功耗AI加速的NPU模塊等等。接下來通過本篇文章,讓我們一起認識英特爾酷睿Ultra。
·首次采用分離式模塊化架構設計
首先,我們來看看Meteor Lake的架構。
Meteor Lake采用了全新的分離式模塊設計,使整個平臺更加靈活,并能夠同時適應高性能計算和低功耗長續航需求。
Meteor Lake包含了GPU圖形模塊、SOC模塊、CPU計算模塊以及I/O模塊,架構圖如下:
位于最左側的是GPU圖形模塊,它采用了基于Xe LPG架構打造的Intel ARC銳炫核顯,性能較此前銳矩Xe核顯提升2倍,并且支持DX12 Ultimate。
Meteor Lake的GPU優化了緩存互連,擁有8個GPU核心,128個Vector Engines(矢量引擎),幾何圖形渲染管線大幅提升,并且新增了8個硬件光追單元,新增了亂序采樣功能,進一步增加準確率和性能。
從英特爾銳炫核顯的相關特性來看,其基本集成了高性能獨顯的所有核心特性,如對于DX12U的支持,對于AV1編解碼的支持,對于DP4A人工智能加速引擎的支持,以及Intel XeSS的支持。
根據官方測試數來看,英特爾銳炫核顯在性能方面較銳炬Xe核顯提升2倍,以下是多款主流游戲的提升百分比。如新近熱門的《博德之門3》提升達到100%,《生化危機8》、《騎馬與砍殺2》兩款游戲提升幅度都達到了90%以上。
可以看到越新的游戲提升幅度越大,這是因為英特爾銳炫GPU的驅動更新一直對新游戲提供Day 0級支持,因此做到了非常好的新游戲適配。
而與銳龍平臺的Radeon 780M集顯對比的話,18款游戲1080p中等畫質,銳炫核顯平均有著16%左右的提升。
此外得益于Intel XeSS技術的加持,銳炫核顯能夠進一步提升游戲畫面流暢度,平均提升幅度達到了39%。這意味著輕薄本也能玩3A游戲了。
位于中間的是SOC模塊,其中包含了全新的低功率計算島E-core,內置NPU AI加速引擎,支持Wi-Fi 6E和Wi-Fi 7控制器,支持8K HDR和AV1格式編碼的媒體引擎,支持原生HDMI2.1和DP2.1標準的顯示單元,并且集成了內存控制器。
位于右下角的是計算模塊,也就是我們熟悉的P-core和E-core,這次的性能核與能效核均采用全新的Intel 4制程工藝打造,并且優化了電源管理和總線帶寬。
具體到E-core與P-core的變化,首先,酷睿Ultra平臺的E-core微架構由Gracemont升級到了Crestmont,確保在低功耗下進一步提升E-core的吞吐能力。同時,其VNNI指令集的執行也得到大幅提升,因而增強了AI計算能力。
P-core微架構則由Golden Cove升級到Redwood Cove,進一步提升性能的前提下,P-core的能效實現大幅度提升。
多方面的改進和提升,使得英特爾酷睿Ultra處理器的多線程性能相比以往有了一定幅度的提升。
以酷睿Ultra 7 165H為例,它的單線程性能和多線程性能較銳龍7 7840U分別提升12%和11%,在功耗進一步降低的情況下,總體表現還是相當讓人滿意的。
生產力方面,酷睿Ultra 7 165H對比銳龍7 7840U在Video Editing上有31%的性能領先,在Premiere Pro上有41%性能領先,在Lightroom上有19%的性能領先。
位于左下角的是I/O模塊,這里主要集成了Thunderbolt4和PCIe5.0控制器,提供出色的連接性。
在拆分成四大模塊之后,圖形、計算和I/O模塊其實都是大家比較熟悉的,但SOC模塊可以說是Meteor Lake最為與眾不同的地方。
以往,Wi-Fi控制器、媒體引擎、顯示控制器以及內存控制器等都分布于不同IP之中。如媒體引擎以往是在GPU圖形單元之中。
而Meteor Lake在基于性能與能效比的考量上,將這些控制器統一集成到了SOC模塊中。其在架構設計上遵循了四個原則:
第一,對計算的密集型IP進行了重新劃分,以實現其功率的優化。力求在不影響性能的情況下,大幅提高能效比。
第二,對I/O進行了擴展,使SOC內部所有主要IP都能享受到帶寬支持,所以提供了非常大的系統內存相匹配的帶寬。
第三,在SOC的核心當中引入了超低能耗核心。
第四,重組了電源管理算法。
還是以媒體引擎為例。以往,媒體引擎集成在GPU單元中,所以只要媒體引擎在工作,實際上就是整個GPU單元在工作。而GPU在工作的同時,又需要訪問內存,因此還要把環形總線打開,這樣就會使能耗變高。
而Meteor Lake將媒體引擎與圖形單元拆分,并集成到低功耗SOC中之后,用戶在使用媒體引擎相關應用時,如看視頻的時候,GPU模塊就不需要被打開了。
同時內存控制器也放到了SOC總線上,此時即便需要訪問內存,其它幾個模塊也不需要打開,這樣就可以節省功耗,延長電腦的續航能力。此外像I/O模塊也是同樣的原理。
SOC模塊除了集成以往的Wi-Fi控制器、媒體引擎、顯示控制器以及內存控制器之外,NPU和低功率島E-core可以說是兩個全新的單元。
NPU是英特爾首款低功耗推理專用的人工智能引擎,在CPU與GPU之外,英特爾希望通過擁有更好能效比的NPU去實現對人工智能的不同維度的加速能力。
它可以看作是PC普及人工智能的一個標志。在Meteor Lake平臺上,如背景虛化、人體追蹤、眼角度矯正等基于AI的特性將被放到功耗更低的NPU上去執行,這樣可以極大程度降低CPU與GPU的使用,從而讓筆記本具有更好的續航能力。
NPU支持標準化程序界面,支持商業以及開源API,從而為人工智能應用開發提供了非常友好的開發界面。
具體到架構層面,NPU主要集成了兩個神經計算引擎,它由推理管道和可編程數字信號處理器構成,具備高效靈活的矩陣乘法和卷積,支持激活函數以及數據轉換。
其內置兩個MAC陣列,專門負責矩陣乘法和卷積,支持最佳數據重用,以降低功耗,支持INT8和FP16數據類型。
同時擁有單獨的激活函數和數據轉換模塊。此外,它還集成了DMA引擎和暫用內存,可將數據引入軟件管理的SRAM,圖形編譯器會優化調度DMA任務,并支持先進的數據重新布局。
此外,借助OpenVINO等工具,以及對于AI應用、大模型庫的支持,NPU在AI相關應用,如Stable Diffusion等方面,都能提供非常出色的性能支持。
NPU使得Meteor Lake整體能效提升多達8倍,它推動了生態系統創新的標準化編程接口,Meteor Lake處理器全系列均支持NPU。
低功耗島,顧名思義,它的訴求就是在追求極致性能的前提下去降低能耗,延長電池使用時間,讓系統變得更冷更安靜。
將低工作負載應用直接運行在SOC模塊的低功耗E-core上,如Wi-Fi、NPU AI推理、流媒體播放等,可以實現讓用戶在運行低負載任務時只需要SOC去工作就可以了。
此時,計算模塊、圖形模塊都可以掛起睡眠,甚至直接關閉。
而當一些重負載任務運行是,如游戲等,其它模塊才會按需打開,這樣就可以力爭做到不浪費每一分能源。
此外,在實現分離式模塊化設計之后,還需要考慮不同模塊間的協同工作優化。此時我們需要引入一個概念——Uncore(可以理解為以前的北橋)。
Meteor Lake在Uncore上進行了電源管理的重新設計,不同模塊都有分立的電源管理控制器集成在內部。
比如上圖所示,在SOC上面,PUNIT單元可以對整個SOC進行電源管理,它通過跟不同模塊上的分電源管理器進行溝通,提供一個實時的可擴展的電源管理架構。
這個架構為Meteor Lake提供了很多新的電源管理功能,為將來的芯片設計上的電源管理奠定了非常好的基礎。
·三大AI引擎為AI PC加速
全新的酷睿Ultra平臺無疑是推動AI PC落地的最佳平臺,它提供了GPU、NPU以及CPU三大AI引擎,總體算力可以達到34TOPS,而三大AI引擎可以對應不同的AI計算需求。
TeraOPS
如GPU,它具備更大的帶寬吞吐能力,當用戶需要的數據量比較高的時候,可以用GPU來做。
NPU則是低功耗的AI計算單元,同時因為它是專門為AI工作負載設計的處理器,所以它在處理AI工作負載時非常高效也非常省電。
CPU同樣具備AI計算能力,因為它支持VNNI這一AI加速指令集,可以專門用來加速AI工作負載處理。它在運行對延時比較敏感的這類應用時,比如說語音控制、語音識別,相對NPU、GPU來說,CPU啟動時間最短。
此外,我們可以對比一下酷睿Ultra平臺與其它平臺在浮點和整數計算方面的差異。得益于Intel OpenVINO的支持,酷睿Ultra的NPU、GPU、CPU全面支持FP16浮點運算和Int8整數計算,因此酷睿Ultra平臺可以為AI PC的落地帶來巨大的推動力。
·為什么要做分離式的模塊化設計?
看到這里大家可能會有一個疑問,Meteor Lake為什么要做模塊化設計?
其實歸根結底,模塊化能夠讓芯片設計更加靈活,甚至可以實現功能模塊的定制。同時英特爾在掌握2.5D EMIB和Foveros 3D封裝技術后,也更容易實現模塊化設計。
比如想要增加NPU的功能,想要升級顯示模塊去支持8K顯示等等,分離式模塊化設計會更好實現。因為只需要把特定功能的模塊設計出來,再將其與其它模塊封裝到一起即可,不需要去完全重新設計整個芯片架構。
·如何在不同模塊間實現調度?
其實從高性能異構混合架構開始,線程調度就成為英特爾酷睿處理器的重要因素。
Meteor Lake全新的3D高性能混合架構帶來的模塊化設計,更加需要對此進行調優。因此,英特爾進一步優化了英特爾硬件線程調度器。
Meteor Lake增強了英特爾硬件線程調度器對操作系統的反饋。在其它IP占用功耗的時候,核心功耗會被動態分配。
因此,新的硬件線程調度器會實時更新核心能力,以便更加精準地向操作系統報告整個核心和每個核心的內部能耗比的評估和判斷,以提供更加精確的表格給到操作系統。
同時在軟件層面和系統層面,與英特爾DDT軟件結合起來對核心調配做更優的控制。
其實這里我們需要明確一下英特爾硬件線程調度器的工作原理。它并不是直接控制進程的,或者說它不是去分配進程到某一個具體核心上。而是介于處理器和Windows操作系統之間的一個“評分系統”。
它可以向Windows系統實時提供P-Core、E-Core、LP E-Core的硬件能力,然后反饋給操作系統線程調度器,最終由系統根據每個核心的評分,按照負載將任務分配到特定核心上去執行。
如下圖所示,英特爾與微軟做了一張這樣的“評分”表格,其中包含四種顏色,對應不同分類等級。它根據P-Core、E-Core以及LP E-Core的IPC,就是每個時鐘能執行多少條指令的能力來進行分類。
比如Class0代表的是P-Core、E-Core在執行這種指令,每時鐘執行的指令數量基本上一致,就歸為Class0。
右邊的Class1代表P-Core在每一個時鐘內執行的指令數量大于由E-Core來執行,則會被歸為Class1,比如一些浮點運算的指令就會落在Class1的范圍內。
Class2代表P-Core在每個時鐘內執行的指令數量遠遠大于由E-Core執行,比如一些AI計算,通常會歸到Class2當中。
最左邊的Class3是極少部分指令會落在這一等級上,這里表明Class3的指令中,E-Core每個時鐘周期執行的指令數反而會高于P-Core。
表格會對每一個核心打兩個分數(EE和Perf分),分數最高的就代表著英特爾硬件線程調度器對Windows的推薦優先級最高。之后Windows會依據推薦將任務負載放到分數最高的核心上來執行。
因此,Meteor Lake的能效設計,包括硬件線程調度器等等,其實與Windows系統有著密不可分的關系。
實際上英特爾、微軟共同設計實現了線程調度器這種反饋和控制的機制,然后去做處理器的功耗管理優化,并且去實現功率和性能的最大限度的提高。
因此,Meteor Lake分離式模塊化設計最終能否真正兼顧高性能與低功耗,硬件線程調度器與Windows系統是極其重要的環節。
·Intel 4制程工藝簡化制造流程,良率顯著提升
在4年5個制程節點中,Intel 4對于英特爾而言極為重要。因為Intel 4取得成功,就意味著從技術層面英特爾可以非常好地步進到接下來的Intel 3、Intel 20A和Intel 18A三個制程節點。
Intel 4的主要特性包括:
其一,廣泛采用EUV光刻技術,在滿足DIE變小的同時,大幅度簡化了制造流程。
其二,CPU高性能邏輯庫面積相比Intel 7縮減約2倍。
其三,相比Intel 7,帶來了20%的性能和能效比提升,
其四,實現了更好的頻率和電壓平衡,
其五,進一步加大了MIM密度,以提供更高效的底層供電。
接下來我們對這五項特性逐一作出分析。
Intel 4制程工藝廣泛使用了EVU光刻技術,降低3-倍的處理步驟。
從下圖可以看到,在使用EUV技術的情況下,掩膜總數和工藝步驟總數分別比未使用EUV的Intel 7制程下降20%和5%。而在微縮工藝方面的提升也帶來了晶體管密度的整體提升。
Intel 4制程帶來了整個DIE的集成度變化。下圖可以看到,Intel 7采用408庫高度,而Intel 4切換到了240庫高度。約2倍縮減分別來自于接觸式柵極間距縮減0.83、鰭片間距縮減0.88、M0間距縮減0.75以及高性能庫高度縮減0.59。
針對CPU,對比Intel 7以及Intel 4帶有6VT和帶有8VT的功率與頻率情況,Intel 4實現了更低功率情況下更好的頻率表現,相比Intel 7有20%的能效提升。
同時,Meteor Lake連接層針對高性能計算應用進行優化的18層金屬堆棧上也采用了新技術,廣泛借助EUV,通過四重自動成像工藝,實現了非常好的層數和密度提升,為布線層也提供了非常好的技術支持。
除了降低間距之外,如何降低電阻提升導電性的同時,確保更長的電遷移壽命也是新制程工藝的一項關鍵技術指標。
在Intel 7制程節點,英特爾采用了不同的特殊金屬層去解決這一問題。而Intel 4則是采用了增強型的銅金屬(鉭/鈷與純銅)工藝,實現電阻降低并延長電遷移壽命。
此外,EUV技術使得Intel 4在連接結構上面變的更加標準化。如下圖所示,對比Intel 7和Intel 4,會發現在Intel 7金屬層有很多非標準、非單一的連接模式,而EUV技術使得Intel 4做的更加統一。這件事的意義在于可以使布局、單元擺放、時鐘數統一以及布線等方面實現高效的自動化設計。
MIM電容器可提供卓越的供電能力,相對于Intel 7制程工藝,Intel 4的MIM cap密度提高了約2倍,達到了376fF/um2。
基于更加細膩的微縮工藝、更加簡化的制造步驟、更加標準化的連接模式以及電遷移壽命延長和更加健康的電磁可靠性,Intel 4制程工藝獲得了極高的良率,總體超過了優化后的14nm和10nm制程水準線。
這也是為什么Intel 4的成功,對于未來快速過渡到Intel3、Intel 20A和Intel 18A就越順暢。
·Foveros 3D封裝讓模塊化設計實現更好的連接
架構與制程之后,我們再來聊聊Meteor Lake的封裝技術。
前面我們提到,Meteor Lake采用了全新的分離式模塊化設計,而要讓每個模塊之間實現更好的連接,實現更加高效的協同性能,就需要通過更加先進的封裝工藝來實現。而Meteor Lake所使用的,就是經過多年驗證的Foveros 3D封裝技術,同時也在不同模塊上使用了2.5D EMIB封裝技術。
此前,Foveros 3D封裝技術主要被應用在至強處理器、高密度計算GPU以及FPGA上,而Meteor Lake是英特爾首次大規模將Foveros 3D封裝技術應用在消費級市場的產品上。
通過2.5D和3D的混合封裝,可以實現更高密度的DIE與DIE的封裝,提供不同節點更復雜的連接,同時可以具備更好的低功耗以及高性能的連接。
那么具體到Meteor Lake,是如何實現模塊化封裝的呢?
首先,晶圓廠制造好晶圓之后,會將其運輸到封裝測試工廠進行分割和測試。分割晶片完成測試之后,確保只有經過認證的良好晶片最終進入到Foveros組裝流程中。
接下來,封裝廠會將頂部晶片與基礎晶圓通過高溫進行貼合,創建出晶片復合體,之后再將貼合后的晶圓二次分割成封裝所需要的各個模塊,并通過環氧樹脂貼合到基板上,最后封上金屬散熱器,即可大批量完成Meteor Lake處理器的封裝制造。
之后再通過系統級的測試驗證,將沒有任何問題的成品交付到OEM手中進行最終的產品組裝。在封裝層面,Foveros3D封裝技術,帶來更好的疊加性以及更高密度。
由于在芯片內就已經實現了極低功耗和高密度晶片連接,最小化了分區開銷,所以能夠為處理器芯片的每個區塊選擇理想的芯片工藝,且每塊晶圓可獲得10%以上的芯片數量提升,從而降低成本、提高性能、提升晶圓良率。
2.5D EMIB技術則主要被用于GPU封裝。其底層通過2.5D實現計算單元模組的DIE與DIE互連,密度更高,間距更小。同時混合使用3D封裝技術,將上層DIE與基礎層的DIE連接到一起,進一步提升密度的同時,可以在芯片層級降低功耗。
其實從前面的架構示意圖可以看到,Meteor Lake大體分為4個模塊,但其實每個模塊中又包含了功能不同的小模塊,這些大大小小的模塊,其實就是通過2.5D和3D封裝技術集成到一起的。這就像蓋房子,一磚一瓦的橫向與縱向堆疊,最終構成一整個建筑主體。
·結語
總體來說,英特爾Meteor Lake是第一個基于Intel 4制程工藝打造的處理器平臺,它在架構層面采用了創新的分離式模塊化設計,并首次將Foveros 3D封裝工藝帶到消費級產品上來。
它改進了英特爾硬件線程調度器,優化了模塊間的電源管理,借助低功耗的SOC模塊可以讓低負載任務運行在其上的同時,睡眠甚至關閉GPU和CPU模塊,以達到降低整體功耗,提升續航能力的需求。
2023年12月15日,第一代酷睿Ultra平臺正式發布,同時也有不少OEM廠商第一時間推出了基于其打造的輕薄型筆記本產品,我們也將陸續為大家放出相關產品的評測。
本文鏈接:http://www.tebozhan.com/showinfo-25-46494-0.html架構設計脫胎換骨!英特爾酷睿Ultra深度解析
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com