在人工智能領域,大模型的崛起無疑成為了技術進步的強大驅動力。然而,隨著模型參數量的急劇增加,對算力的需求也隨之飆升,給行業帶來了前所未有的挑戰。如何在保證效率的同時,降低運行大模型的成本,成為了眾多企業關注的焦點。
DeepSeek R1滿血大模型,憑借其高達6710億的參數量以及創新的MLA注意力機制和混合專家(MoE)架構,在提升推理效能方面取得了顯著成果。然而,在實際應用中,企業對于大模型的性價比有著更為嚴格的要求。
近日,超聚變公司推出的FusionOne AI大模型一體機,通過軟硬件的深度協同優化,成功突破了H20硬件在運行DeepSeek滿血大模型時的性能極限。在模擬的對話場景中,僅需一臺FusionServer G8600服務器搭載8張H20硬件,便能流暢運行DeepSeek R1滿血版,支持高達1024的并發訪問數,總吞吐量更是達到了6335 token/s,相比業內同類方案,性能提升了60%。
這一突破得益于超聚變在軟硬件協同優化方面的深厚積累。通過內核優化,FusionOne AI大模型一體機提升了顯存空間的利用率,使得模型參數和過程數據能夠更高效地運行。同時,采用DP數據并行和TP模型張量并行技術,實現了多卡分布式并行計算,進一步提升了token生成的吞吐效率。
FusionOne AI大模型一體機還采用了創新的推理任務切片混合調度策略。在Prefill階段,即首token輸出階段,通過長文本切片加速初始內容的生成速度。而在每個切片計算過程中,混合調度Decode任務,即后續token迭代生成任務,使得這些任務能夠并行運行,無需串行等待,從而提高了資源利用率,降低了TTFT(首token輸出時間)和TPOT(每個輸出token的時間)。
超聚變FusionOne AI大模型一體機的推出,不僅大幅降低了DeepSeek-R1 671B模型的部署門檻,更以普惠的形態讓更多的企業和科研機構能夠輕松應用這一先進技術。這一成果不僅展示了超聚變在AI算力優化方面的強大實力,更為推動AI技術的廣泛應用和落地注入了新的動力。
超聚變在軟硬件協同優化方面的探索并未止步。未來,隨著技術的不斷進步和應用場景的不斷拓展,超聚變將繼續加大研發投入,聚焦AI算力優化與應用拓展,為企業AI應用的落地提供更加全面和高效的支持。
本文鏈接:http://www.tebozhan.com/showinfo-45-11649-0.html超聚變FusionOne AI一體機:DeepSeek大模型吞吐性能躍升新高度
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com