當前位置：首頁 > 科技 > 數(shù)碼

AMD Instinct數(shù)據(jù)中心GPU第一時間支持DeepSeek！FP8高性能提升顯著

來源：責(zé)編：時間：2025-02-13 10:50:03 108觀看

導(dǎo)讀快科技2月10日消息，DeepSeek大模型火遍海內(nèi)外，AMD Instinct數(shù)據(jù)中心GPU第一時間實現(xiàn)了對新版DeepSeek V3的支持，并且集成了SGLang推理框架優(yōu)化，從而提供佳性能。據(jù)介紹，DeepSeek-V3是一種強大的開源混合專家MoE

快科技2月10日消息，DeepSeek大模型火遍海內(nèi)外，AMD Instinct數(shù)據(jù)中心GPU第一時間實現(xiàn)了對新版DeepSeek V3的支持，并且集成了SGLang推理框架優(yōu)化，從而提供佳性能。

據(jù)介紹，DeepSeek-V3是一種強大的開源混合專家MoE模型，共有6710億個參數(shù)，是目前開源社區(qū)受歡迎的多模態(tài)模型之一，憑借創(chuàng)新的模型架構(gòu)，打破了高效低成本訓(xùn)練的記錄，獲得整個行業(yè)交口稱贊。

DeepSeek-V3不僅沿用了此前DeepSeek V2中的多頭潛在注意力機制MLA、MoE架構(gòu)，還開創(chuàng)了無輔助損失的負載平衡策略，并設(shè)定了多token預(yù)測訓(xùn)練目標，以提高性能。

目前，DeepSeek-V3在眾多主流基準測試中的表現(xiàn)都已比肩世界頂級開源、閉源模型，包括GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等，尤其是擁有超強的長文本處理、數(shù)學(xué)及代碼編程能力。

AMD ROCm開源軟件、AMD Instinct數(shù)據(jù)中心GPU加速器軟硬聯(lián)合，構(gòu)成了強大的基礎(chǔ)設(shè)施，在DeepSeek-V3開發(fā)的關(guān)鍵階段發(fā)揮了重要作用，再次證明了AMD對開源AI軟件的承諾，也能幫助開發(fā)者打造強大的視覺推理和理解應(yīng)用。

DeepSeek-V3的另一大亮點是采用FP8低精度訓(xùn)練，而AMD ROCm平臺對于FP8的支持，顯著改善了大模型的計算過程，尤其是推理性能的提升。

通過支持FP8，AMD ROCm非常高效地解決了內(nèi)存瓶頸、更多讀寫格式高延遲等問題，可以在一定的硬件限制內(nèi)，運行更大的模型或批次。

相較于FP16，F(xiàn)P8精度計算可以顯著減少數(shù)據(jù)傳輸和計算的延遲，實現(xiàn)更高效地訓(xùn)練和推理。

乘著DeepSeek的東風(fēng)，AMD將繼續(xù)推進ROCm開源開發(fā)生態(tài)，確保開發(fā)者能在第一時間基于AMD Instinct數(shù)據(jù)中心GPU從事DeepSeek相關(guān)的開發(fā)和應(yīng)用工作，實現(xiàn)佳性能和擴展性。

AMD Instinct數(shù)據(jù)中心GPU第一時間支持DeepSeek！FP8高性能提升顯著

AMD官方博客傳送門：

https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html

附錄：AMD Instinct數(shù)據(jù)中心GPU使用SGLang推理簡單教程——

開發(fā)者可訪問https://github.com/sgl-project/sglang/releases，獲取SGLang對DeepSeek-V3模型推理的完整支持。

創(chuàng)建ROCm Docker鏡像

1、啟動Docker容器：

docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host //

--device=/dev/kfd --device=/dev/dri --security-opt

seccomp=unconfined //

--group-add video --privileged -w /workspace

lmsysorg/sglang:v0.4.1.post4-rocm620

2、開始使用：

1)登錄Hugging Face：

使用CLI登錄Hugging Face：

huggingface-cli login

2)啟動SGLang服務(wù)器：

在本地機器上啟動一個服務(wù)器來托管DeepSeekV3 FP8模型：

python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 -- port 30000 --tp 8 --trust-remote-code

3)生成文本：

在服務(wù)器運行后，打開另一個終端并發(fā)送請求生成文本：

curl http://localhost:30000/generate /

-H "Content-Type: application/json" /

-d '{

"text": "Once upon a time,",

"sampling_params": {

"max_new_tokens": 16,

"temperature": 0

}

3、性能基準測試：

單批次吞吐量和延遲：

python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

服務(wù)器：

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8

精度：0.952

無效：0.000

注意：由于DeepSeek-v3原生為FP8 訓(xùn)練，且目前僅提供 FP8 權(quán)重，如果用戶需要 BF16 權(quán)重進行實驗，可以使用提供的轉(zhuǎn)換腳本進行轉(zhuǎn)換。以下是將 FP8 權(quán)重轉(zhuǎn)換為 BF16 的示例：

cd inference

python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

本文鏈接：http://www.tebozhan.com/showinfo-24-130048-0.htmlAMD Instinct數(shù)據(jù)中心GPU第一時間支持DeepSeek！FP8高性能提升顯著

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：藍寶石自曝RX 9070 XT：純白設(shè)計煞是好看

下一篇：鎧俠全面展示AI SSD：不只是快穩(wěn)定性更高達99.999％！

標簽：

熱門焦點

Raft算法：保障分布式系統(tǒng)共識的穩(wěn)健之道

1. 什么是Raft算法？Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”（“可靠、可復(fù)制、可冗余、可容錯”）的首字母縮寫。Raft算法是一種用于在分布式系統(tǒng)
摸魚心法第一章——和配置文件說拜拜

為了能摸魚我們團隊做了容器化，但是帶來的問題是服務(wù)配置文件很麻煩，然后大家在群里進行了“親切友好”的溝通圖片圖片圖片圖片對比就對比，簡單對比下獨立配置中心和k8s作為配
Automa-通過連接塊來自動化你的瀏覽器

1、前言通過瀏覽器插件可實現(xiàn)自動化腳本的錄制與編寫，具有代表性的工具就是：Selenium IDE、Katalon Recorder，對于簡單的業(yè)務(wù)來說可快速實現(xiàn)自動化的上手工作。Selenium IDEKat
每天一道面試題-CPU偽共享

前言：了不起：又到了每天一到面試題的時候了！學(xué)弟，最近學(xué)習(xí)的怎么樣啊了不起學(xué)弟：最近學(xué)習(xí)的還不錯，每天都在學(xué)習(xí)，每天都在進步！了不起：那你最近學(xué)習(xí)的什么呢？了不起學(xué)弟：最近在學(xué)習(xí)C
微博大門常打開，迎接海外畫師漂洋東渡

作者:互聯(lián)網(wǎng)那些事“起猛了，我能看得懂日語了”。“為什么日本人說話我能聽懂？”“中文不像中文，日語不像日語，但是我竟然看懂了”…&hell
iQOO Neo8系列新品發(fā)布會

旗艦雙芯更強更Pro
iQOO Neo8系列或定檔5月23日：首發(fā)天璣9200+ 安卓跑分王者

去年10月，iQOO推出了iQOO Neo7系列機型，不僅搭載了天璣9000+，而且是同價位唯一一款天璣9000+直屏旗艦，一經(jīng)上市便受到了用戶的廣泛關(guān)注。在時隔半年后，
OPPO K11評測：旗艦級IMX890加持 2000元檔最強影像手機

【Techweb評測】中端機型用戶群體巨大，占了中國目前手機市場的大頭，一直以來都是各手機品牌的“必爭之地”，其中OPPO K系列機型一直以來都以高品質(zhì)、
SN570 NVMe SSD固態(tài)硬盤價格與性能兼具

SN570 NVMe SSD固態(tài)硬盤是西部數(shù)據(jù)發(fā)布的最新一代WD Blue系列的固態(tài)硬盤，不僅閃存技術(shù)更為精進，性能也得到了進一步的躍升。WD Blue SN570 NVMe SSD的包裝外

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

AMD Instinct數(shù)據(jù)中心GPU第一時間支持DeepSeek！FP8高性能提升顯著

Raft算法：保障分布式系統(tǒng)共識的穩(wěn)健之道

摸魚心法第一章——和配置文件說拜拜

Automa-通過連接塊來自動化你的瀏覽器

每天一道面試題-CPU偽共享

微博大門常打開，迎接海外畫師漂洋東渡

iQOO Neo8系列新品發(fā)布會

iQOO Neo8系列或定檔5月23日：首發(fā)天璣9200+ 安卓跑分王者

OPPO K11評測：旗艦級IMX890加持 2000元檔最強影像手機

SN570 NVMe SSD固態(tài)硬盤價格與性能兼具

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊