11月15日,在第25界高交會上,云天勵飛重磅發布新一代自主可控的面向邊緣人工智能(AI)推理芯片DeepEdge10系列,最高算力可達48TOPS,支持D2D/C2C Mash互聯擴展,可以滿足千億參數的大模型部署需求。
大模型時代,AI推理芯片將是應用落地的關鍵載體
自去年年底以來,隨著以ChatGPT為代表的AI大模型應用的持續火爆,推動了AI全面進入了大模型時代,而且隨著邊緣算力的提升,AI大模型的部署也開始由云端進入到邊了緣端。
根據IDC的預測,到2023年底,全球的邊緣計算市場將達到2000億美金的規模;預計到2026年,邊緣計算市場將突破3000億美金。
目前很多AI大模型仍處于快速發展的階段,因此,對于AI訓練芯片的需求仍在快速增長,但是當大模型訓練完成,開始進入到了實際應用之后,對于AI推理的需求將會更多。
根據IDC的數據顯示,2020年中國數據中心用于人工智能推理的芯片的市場份額已經超過50%,預計到2025年,用于人工智能推理工作負載的芯片將達到60.8%。同樣,對于邊緣AI應用來說,更需要的也將是AI推理芯片。
但是,邊緣計算的場景存在著算力碎片化、算法長尾化、產品非標化、規模碎片化的特征,傳統的算法開發和芯片都難以適應新一代人工智能邊緣計算場景的產品化需求。而大模型的出現,開始為行業提供了算法層面的解決之道。但大模型在邊緣計算場景要面向實戰發揮作用,則需要AI大模型推理芯片的支持。
云天勵飛董事長兼CEO陳寧表示:“從2015年開始,研發到今天的第三代的神經網絡處理器,可以全兼容基于Transformer的計算范式。而Transformer是語言、視覺大模型的計算范式,云天勵飛2020年開始研究,到2021年就實現了全面兼容。今天發布的DeepEdge10系列芯片,正是基于最新的Transformer計算范式。”
對于AI芯片而言,大模型也帶來了全新的計算泛式和計算要求。芯片需要具備更大的算力、更大的內存帶寬、更大的內存容量,才能支持巨量參數的大模型在邊緣端運行。同時,AI邊緣推理芯片還承擔了“落地應用最后一公里”的職責,這就意味著AI邊緣推理芯片不僅要支持大模型等AI計算任務,還需要具備較強的通用算力。
針對上述場景需求,云天勵飛也將DeepEdge10打造成為了一款面向邊緣AI大模型優化的主控級SoC芯片!
14nm Chiplet架構,最高算力可達48TOPS
據介紹,云天勵飛DeepEdge10是國內首創的14nm Chiplet架構的面向大模型AI推理的主控級SoC芯片。
具體來說,DeepEdge10集成了2大核+8小核的國產RISC-V CPU內核,最高主頻1.8GHz;還集成了性能可對標Arm Mali-G52的GC8000L GPU,主頻800MHz,支持最大8K@30fps的視頻編解碼能力和最大2億像素的JPEG編解碼能力,并且支持雙屏異顯(2K@60fps);內置云天勵飛最新一代自主知識產權 NPU NNP400T,int8算力可達12Tops。同時,DeepEdge10還具備硬件級的安全特性,以及完備的高低速外圍接口。
正如前面所介紹的,DeepEdge10是面向大模型推理需求進行了針對性優化,其內部集成的NNP400TNPU是一款支持支持大模型新型計算范式的神經網絡處理器,不僅支持FP16/INT16/INT8等數據格式,還支持多線程、支持Transformer網絡結構模型。
在制造工藝方面,由于更為先進制程工藝獲取受限,DeepEdge10選擇基于國內自主可控的14nm工藝。同時,采用了基于D2D(DietoDie)互聯的Chiplet先進封裝架構,可以支持算力靈活擴展,可滿足不同場景對算力和成本的多樣化需要。
比如通過D2D Chiplet先進封裝技術,在一顆封裝里面裝入更多的DeepEdge10的Die,就能夠實現性能的成倍提升。當然,這對于先進封裝技術來說,需要保障Die與Die之間能夠實現高速互聯、大帶寬、低功耗、低時延、傳輸的高可靠性、強大路由、統一內存。
“14nm Chiplet D2D同樣可以實現的出色的計算能力,我們基于Chiplet D2D的技術可以實現一次設計流片、多次封裝,可推出多顆不同計算規格的AI推理芯片。”陳寧進一步解釋道。
據介紹,基于ChipletD2D架構,云天勵飛DeepEdge10系列演化出了DeepEdge10C、DeepEdge10標準版和DeepEdge10Max三款芯片。其中,DeepEdge10C算是精簡版,NPU算力為8TOPS。而DeepEdge10Max則是“PRO版”,CPU核心提升到了40核,NPU算力達到了48TOPS。
此外,DeepEdge10還支持C2C(Chip to Chip)Mesh Torus互聯擴展。這也意味著,多顆DeepEdge10芯片可以直接通過C2CMesh Torus互聯擴展來進一步提升整體的性能,可以實現高達512GB的統一內存、高達192GB的統一內存帶寬、實現各計算節點的最短傳輸延遲、Mesh可重構特性可以支持2×2/3×3/4×4 Mesh。這足以滿足千億級大模型的部署需求。
據陳寧透露,云天勵飛下一代的邊緣AI推理芯片DeepEdge20將會采用第二代的Chiplet架構,兼容國際標準/國產UCIE標準,內核采用第三代的異構多核架構,并集成自研的第四代的神經網絡處理器,屆時性能將會比DeepEdge10提升20倍。
在此次發布會上,云天勵飛還推出了三款基于DeepEdge10系列的推理加速卡,包括IPU X2000、IPU X5000和IPU X6000,算力分別為24TOPS、64TOPS和256TOPS。其中,IPU X5000推理卡,已適配并可承載SAM CV大模型、Llama2等百億級大模型運算。
根據云天勵飛公布的數據顯示,其最強的DeepEdge 10MAX芯片可以支持在端側運行70億參數的LLMs大模型,生成速度可達27 Token/s,并且可兼容運行130億參數的LLMs大模型。而基于DeepEdge10系列芯片的IPU加速卡,通過C2C Mesh互聯擴展,算力可達1024TOPS,運行700億參數的LLMs大模型,生成速度可達42Token/s,并可兼容運行千億參數的LLMs大模型。
為了讓合作伙伴能夠充分發揮DeepEdge10系列相關產品的AI算力,適應D2D/C2C架構下靈活算力擴展,云天勵飛也推出了一站式的開發工具鏈。
在產品出貨形態上,云天勵飛DeepEdge10系列除了可以直接出貨芯片和加速卡之外,還包括板卡、盒子、推理服務器等,可廣泛應用于AIoT邊緣視頻、移動機器人等場景。
在生態合作方面,目前云天勵飛已經向國內頭部的AIoT芯片設計廠商、智慧汽車芯片設計廠商、服務機器人廠商、國家重點實驗室等提供神經網絡處理器的IP授權,助力其芯片的AI能力提升;云天勵飛還有近30家算法芯片化合作伙伴,這些合作伙伴的需求將會被植入云天勵飛的下代芯片當中;在算法應用生態方面,所有使用云天勵飛芯片產品的合作伙伴,均可在線下載更新云天勵飛的100+種算法。
算法芯片化,云天勵飛打造AI芯片的核心“武器”
云天勵飛自2014年成立以來一直堅持自主研發芯片,沉淀“算法芯片化”的核心能力。“算法芯片化”并不是簡單的“算法+芯片”,而是云天勵飛基于對場景的理解,以及對算法關鍵計算任務在應用場景中的量化分析,將芯片設計者的理念、思想與算法相融合的AI芯片設計流程,能夠讓AI芯片在實際應用中發揮更優的效果。
在算法芯片化核心能力的支持下,云天勵飛目前已完成了三代指令集架構、四代神經網絡處理器架構的研發,且已陸續商用。更可貴的是,通過多年的投入,公司已建立起一支核心芯片團隊,設計經驗平均超過14年。
在陳寧看來,云天勵飛的自主研發芯片,也是公司自進化城市智能體戰略的重要引擎。2020年,云天勵飛在高交會上正式發布自進化城市智能體戰略。驅動自進化城市智能體發展的核心邏輯,是打造“應用生產數據、數據訓練算法、算法定義芯片、芯片規模化賦能應用”的數據飛輪。芯片是決定AI應用廣度與深度的關鍵載體,也是自進化城市智能體建設的重要算力支撐。
展望未來,陳寧認為,三年后,80%以上的企業將運行在大模型之上;五年后,機器人和數字人的數量將超過人類的數量;七年后,也就是到2030年,大模型的智慧程度將超過人腦,那個時候大模型可能將會具備超過1萬億的參數體量,相當于是人腦末梢神經鏈接的數量,我們正在踏入第四次工業革命的開端。
“在這個過程中,云天勵飛也將堅持我們的初心,繼續加大自主研發力度,不斷的推進人工智能算法的技術、芯片的技術。同時,立足自主可控,以自研‘芯’,為自進化城市智能體發展提供強大引擎。”陳寧說道。
編輯:芯智訊-浪客劍
本文鏈接:http://www.tebozhan.com/showinfo-27-26459-0.html云天勵飛發布大模型推理芯片:14nm Chiplet架構,國內首創!
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com