近日,清華大學高性能計算研究所的翟季冬教授團隊攜手清華背景的科技創新企業清程極智,共同發布了一款名為“赤兔Chitu”的開源大模型推理引擎。這款引擎實現了在非英偉達Hopper架構GPU以及多種國產芯片上原生運行FP8精度模型,為國產AI芯片的廣泛應用和生態建設帶來了歷史性的突破。
赤兔引擎通過底層技術的革新,成功打破了特定硬件的限制,使得非H卡設備(包括英偉達Hopper架構之前的GPU卡及多種國產芯片)能夠高效部署原生FP8模型。這一突破極大地降低了企業部署AI模型的門檻和成本,為AI技術的普及和應用提供了強有力的支持。
翟季冬教授表示,赤兔引擎凝聚了團隊多年在并行計算與編譯優化領域的深厚積累,旨在消除先進模型與多樣化硬件之間的鴻溝,讓國產算力真正發揮潛力,為中國大模型產業的落地提供堅實的支撐。清程極智的CEO湯雄超則強調,赤兔引擎的定位是成為連接多元算力與大模型應用的橋梁,不僅支持英偉達全系列GPU,還針對國產芯片進行了深度優化,未來將陸續推出適配不同芯片的開源版本。
在首期開源版本中,赤兔引擎在A800集群上部署DeepSeek-R1-671B滿血版時,相比部分國外開源框架,在GPU使用量減少50%的情況下,推理速度仍實現了3.15倍的提升。這一顯著的性能提升意味著企業能夠以更少的硬件資源獲得更高的推理性能,從而極大地降低了部署門檻和運營成本。
赤兔引擎的目標非常明確,即滿足從純CPU到大規模集群的全場景大模型部署需求,適配英偉達多款GPU及多種國產芯片。同時,針對市場上不同的大模型算力優化需求,赤兔引擎提供了低延遲、高吞吐、小顯存三方面的優化方案,確保以最低的成本實現最高的性能。這種設計理念使得集成赤兔引擎的大模型部署服務能夠覆蓋廣泛的客戶群體。
從底層設計上,赤兔引擎就將“算力效率”作為首要優化目標,力求在資源消耗最低的情況下實現性能的最大化輸出。這一理念貫穿于赤兔引擎的每一個細節,確保其在各種應用場景中都能發揮出色的表現。
為了進一步簡化企業AI落地流程,清程極智還推出了基于赤兔引擎的“推理一體機”。這款一體機提供了開箱即用的部署方案以及專業的運維服務,使得企業能夠更加便捷地應用AI技術,提升業務效率。
為了加速生態建設,赤兔團隊與多家國產芯片廠商展開了緊密的合作,開放了代碼貢獻通道,縮短了硬件適配周期。湯雄超表示:“開源不僅是技術共享,更是為國產芯片‘搶時間’。當新的模型或數據類型出現時,赤兔引擎能夠助力國產芯片迅速跟上國際節奏,縮小與國際先進芯片之間的時間差距。”
赤兔引擎的發布標志著中國在AI芯片生態建設方面取得了重要進展,為國產芯片的應用和普及提供了強有力的支持。未來,隨著赤兔引擎的不斷優化和推廣,相信將有更多的企業能夠受益于這一先進的技術成果。
本文鏈接:http://www.tebozhan.com/showinfo-45-11509-0.html清華開源“赤兔Chitu”引擎,國產AI芯片迎來FP8精度模型新突破
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com