1 月 25 日消息,AMD 宣布,已將新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,該模型經(jīng)過 SGLang 強(qiáng)化,針對(duì) Al 推理進(jìn)行了優(yōu)化。
查詢發(fā)現(xiàn),AMD 早在去年 12 月 26 日就在 Github 上公布了支持 DeepSeek-V3 模型的SGLang v0.4.1。
AMD 表示,DeepSeek V3 是目前最強(qiáng)的開源 LLM,甚至超過了 GPT-4o。AMD 還透露,SGLang 和 DeepSeek 團(tuán)隊(duì)通力合作,使 DeepSeek V3 FP8 從首發(fā)當(dāng)天就能在英偉達(dá)和 AMD GPU 上運(yùn)行。此外,AMD 還感謝了美團(tuán)搜索與推薦算法平臺(tái)團(tuán)隊(duì)以及 DataCrunch 提供 GPU 資源。
據(jù)介紹,DeepSeek-V3 模型是一個(gè)強(qiáng)大的混合專家 (MoE) 語言模型,總參數(shù)量為 671B,每個(gè) token激活 37B 參數(shù)。
為了實(shí)現(xiàn)高效推理和高經(jīng)濟(jì)效益的訓(xùn)練,DeepSeek-V3 采用了多頭潛在注意力 (MLA) 和 DeepSeekMoE 架構(gòu)。
此外,DeepSeek-V3 開創(chuàng)了一種無輔助損失的負(fù)載平衡策略,并設(shè)置了多標(biāo)記預(yù)測(cè)訓(xùn)練目標(biāo)以實(shí)現(xiàn)更強(qiáng)勁的性能。
DeepSeek-V3 使開發(fā)人員能夠使用高級(jí)模型,利用內(nèi)存能力同時(shí)處理文本和視覺數(shù)據(jù),讓開發(fā)人員可以廣泛獲取先進(jìn)功能,并為其提供更多功能。
AMD Instinct GPU 加速器和 DeepSeek-V3AMD 表示,ROCm 中廣泛的 FP8 支持可顯著改善運(yùn)行 AI 模型的過程,尤其是在推理方面。它有助于解決諸如內(nèi)存瓶頸和與更多讀寫格式相關(guān)的高延遲問題等關(guān)鍵問題,使平臺(tái)能夠在相同的硬件限制下處理更大的模型或批處理,從而帶來更高效的訓(xùn)練和推理過程。
此外,F(xiàn)P8 降低精度計(jì)算可以減少數(shù)據(jù)傳輸和計(jì)算中的延遲。AMD ROCm 擴(kuò)展了其生態(tài)系統(tǒng)中對(duì) FP8 的支持,從而能夠在各個(gè)方面(從框架到庫(kù))改善性能和效率。
本文鏈接:http://www.tebozhan.com/showinfo-45-10220-0.htmlAMD:已將 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,利用 SGLang 徹底改變 AI 開發(fā)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: OpenAI 又將面臨版權(quán)訴訟:印度出版商指控其擅自使用受保護(hù)內(nèi)容訓(xùn)練模型
下一篇: 飛牛私有云牽手百度網(wǎng)盤,實(shí)現(xiàn)NAS與網(wǎng)盤文件互傳新體驗(yàn)