近日,清華大學高性能計算研究所的翟季冬教授團隊攜手清華背景的科技創(chuàng)新企業(yè)清程極智,共同發(fā)布了一款名為“赤兔Chitu”的開源大模型推理引擎。這款引擎實現(xiàn)了在非英偉達Hopper架構(gòu)GPU以及多種國產(chǎn)芯片上原生運行FP8精度模型,為國產(chǎn)AI芯片的廣泛應(yīng)用和生態(tài)建設(shè)帶來了歷史性的突破。
赤兔引擎通過底層技術(shù)的革新,成功打破了特定硬件的限制,使得非H卡設(shè)備(包括英偉達Hopper架構(gòu)之前的GPU卡及多種國產(chǎn)芯片)能夠高效部署原生FP8模型。這一突破極大地降低了企業(yè)部署AI模型的門檻和成本,為AI技術(shù)的普及和應(yīng)用提供了強有力的支持。
翟季冬教授表示,赤兔引擎凝聚了團隊多年在并行計算與編譯優(yōu)化領(lǐng)域的深厚積累,旨在消除先進模型與多樣化硬件之間的鴻溝,讓國產(chǎn)算力真正發(fā)揮潛力,為中國大模型產(chǎn)業(yè)的落地提供堅實的支撐。清程極智的CEO湯雄超則強調(diào),赤兔引擎的定位是成為連接多元算力與大模型應(yīng)用的橋梁,不僅支持英偉達全系列GPU,還針對國產(chǎn)芯片進行了深度優(yōu)化,未來將陸續(xù)推出適配不同芯片的開源版本。
在首期開源版本中,赤兔引擎在A800集群上部署DeepSeek-R1-671B滿血版時,相比部分國外開源框架,在GPU使用量減少50%的情況下,推理速度仍實現(xiàn)了3.15倍的提升。這一顯著的性能提升意味著企業(yè)能夠以更少的硬件資源獲得更高的推理性能,從而極大地降低了部署門檻和運營成本。
赤兔引擎的目標非常明確,即滿足從純CPU到大規(guī)模集群的全場景大模型部署需求,適配英偉達多款GPU及多種國產(chǎn)芯片。同時,針對市場上不同的大模型算力優(yōu)化需求,赤兔引擎提供了低延遲、高吞吐、小顯存三方面的優(yōu)化方案,確保以最低的成本實現(xiàn)最高的性能。這種設(shè)計理念使得集成赤兔引擎的大模型部署服務(wù)能夠覆蓋廣泛的客戶群體。
從底層設(shè)計上,赤兔引擎就將“算力效率”作為首要優(yōu)化目標,力求在資源消耗最低的情況下實現(xiàn)性能的最大化輸出。這一理念貫穿于赤兔引擎的每一個細節(jié),確保其在各種應(yīng)用場景中都能發(fā)揮出色的表現(xiàn)。
為了進一步簡化企業(yè)AI落地流程,清程極智還推出了基于赤兔引擎的“推理一體機”。這款一體機提供了開箱即用的部署方案以及專業(yè)的運維服務(wù),使得企業(yè)能夠更加便捷地應(yīng)用AI技術(shù),提升業(yè)務(wù)效率。
為了加速生態(tài)建設(shè),赤兔團隊與多家國產(chǎn)芯片廠商展開了緊密的合作,開放了代碼貢獻通道,縮短了硬件適配周期。湯雄超表示:“開源不僅是技術(shù)共享,更是為國產(chǎn)芯片‘搶時間’。當新的模型或數(shù)據(jù)類型出現(xiàn)時,赤兔引擎能夠助力國產(chǎn)芯片迅速跟上國際節(jié)奏,縮小與國際先進芯片之間的時間差距。”
赤兔引擎的發(fā)布標志著中國在AI芯片生態(tài)建設(shè)方面取得了重要進展,為國產(chǎn)芯片的應(yīng)用和普及提供了強有力的支持。未來,隨著赤兔引擎的不斷優(yōu)化和推廣,相信將有更多的企業(yè)能夠受益于這一先進的技術(shù)成果。
本文鏈接:http://www.tebozhan.com/showinfo-45-11509-0.html清華開源“赤兔Chitu”引擎,國產(chǎn)AI芯片迎來FP8精度模型新突破
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com