1 月 25 日消息,AMD 宣布,已將新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,該模型經過 SGLang 強化,針對 Al 推理進行了優化。
查詢發現,AMD 早在去年 12 月 26 日就在 Github 上公布了支持 DeepSeek-V3 模型的SGLang v0.4.1。
AMD 表示,DeepSeek V3 是目前最強的開源 LLM,甚至超過了 GPT-4o。AMD 還透露,SGLang 和 DeepSeek 團隊通力合作,使 DeepSeek V3 FP8 從首發當天就能在英偉達和 AMD GPU 上運行。此外,AMD 還感謝了美團搜索與推薦算法平臺團隊以及 DataCrunch 提供 GPU 資源。
據介紹,DeepSeek-V3 模型是一個強大的混合專家 (MoE) 語言模型,總參數量為 671B,每個 token激活 37B 參數。
為了實現高效推理和高經濟效益的訓練,DeepSeek-V3 采用了多頭潛在注意力 (MLA) 和 DeepSeekMoE 架構。
此外,DeepSeek-V3 開創了一種無輔助損失的負載平衡策略,并設置了多標記預測訓練目標以實現更強勁的性能。
DeepSeek-V3 使開發人員能夠使用高級模型,利用內存能力同時處理文本和視覺數據,讓開發人員可以廣泛獲取先進功能,并為其提供更多功能。
AMD Instinct GPU 加速器和 DeepSeek-V3AMD 表示,ROCm 中廣泛的 FP8 支持可顯著改善運行 AI 模型的過程,尤其是在推理方面。它有助于解決諸如內存瓶頸和與更多讀寫格式相關的高延遲問題等關鍵問題,使平臺能夠在相同的硬件限制下處理更大的模型或批處理,從而帶來更高效的訓練和推理過程。
此外,FP8 降低精度計算可以減少數據傳輸和計算中的延遲。AMD ROCm 擴展了其生態系統中對 FP8 的支持,從而能夠在各個方面(從框架到庫)改善性能和效率。
本文鏈接:http://www.tebozhan.com/showinfo-45-10220-0.htmlAMD:已將 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,利用 SGLang 徹底改變 AI 開發
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com