快科技2月9日消息,DeepSeek火得一塌糊涂,國(guó)內(nèi)外的相關(guān)企業(yè)都在積極適配支持,而對(duì)于AI大模型來(lái)說(shuō),使用GPU運(yùn)行無(wú)疑是高效的,比如AMD,無(wú)論是Instinct加速卡還是Radeon游戲卡,都已經(jīng)適配到位。
你只需要任意一塊AMD RX 7000系列顯卡,就可以在本地體驗(yàn)DeepSeek。
AMD Radeon游戲卡本地部署DeepSeek非常簡(jiǎn)單,只需打開(kāi)AMD官網(wǎng)(中英文均可),搜索“15.1.1”,進(jìn)入第一個(gè)結(jié)果,下載AMD Adrenalin 25.1.1測(cè)試版驅(qū)動(dòng),安裝并重啟。
直接下載地址:
https://www.amd.com/zh-cn/resources/support-articles/release-notes/RN-RAD-WIN-25-1-1.html
然后打開(kāi)LM Studio官網(wǎng)網(wǎng)站的銳龍專(zhuān)欄(https://lmstudio.ai/ryzenai),并下載LM Studio for Ryzen AI安裝包,安裝并運(yùn)行。
啟動(dòng)之后,點(diǎn)擊右下角設(shè)置(可選中文語(yǔ)言),找到并開(kāi)啟“Use LM Studio's Hugging Face”這個(gè)選項(xiàng)。
回到主界面,在左側(cè)菜單欄點(diǎn)擊搜索圖標(biāo),輸入“DeepSeek R1”,就可以看到已經(jīng)訓(xùn)練好的各種DeepSeek模型。
至于如何選擇,可以參考如下的AMD官方推薦列表,比如旗艦級(jí)的RX 7900 XTX可以支持到32B參數(shù),主流的RX 7600則僅支持8B模型。
順帶一提,新的中國(guó)特供版顯卡RX 7650 GRE也同樣支持本地部署DeepSeek,只待正式發(fā)布。
然后下載合適的模型,在主界面上方選擇已下載的模型,然后調(diào)高“GPU Offload”的數(shù)值,不同選項(xiàng)的具體含義可自行搜索或者直接詢(xún)問(wèn)DeepSeek。
模型加載完畢后,就可以盡情地在本地體驗(yàn)DeepSeek了。
與此同時(shí),AMD Instinct GPU加速卡也已經(jīng)部署集成DeepSeek V3模型,并優(yōu)化了SGLang性能,支持完整的671B參數(shù),開(kāi)發(fā)者可以借助AMD ROCm平臺(tái)快速、高效地開(kāi)發(fā)AI應(yīng)用。
1、啟動(dòng)Docker容器
docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host /
--device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined /
--group-add video --privileged -w /workspace lmsysorg/sglang:v0.4.2.post3-rocm630
2、開(kāi)始使用
(1)、使用CLI登陸進(jìn)入Hugging Face。
huggingface-cli login
(2)、啟動(dòng)SGLang Server,在本地部署DeepSeekV3 FP8模型。
python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 30000 --tp 8 --trust-remote-code
(3)、服務(wù)器啟動(dòng)后,打開(kāi)新的終端,發(fā)送請(qǐng)求。
curl http://localhost:30000/generate /
-H "Content-Type: application/json" /
-d '{
"text": "Once upon a time,",
"sampling_params": {
"max_new_tokens": 16,
"temperature": 0
}
}'
3、基準(zhǔn)測(cè)試
export HSA_NO_SCRATCH_RECLAIM=1
python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8
Accuracy: 0.952
Invalid: 0.000
另外,如果需要BF16精度,可以自行轉(zhuǎn)換:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
本文鏈接:http://www.tebozhan.com/showinfo-24-129339-0.htmlAMD顯卡可以本地玩DeepSeek了!附簡(jiǎn)單部署教程
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: RTX 5090/5080黑屏變磚!NVIDIA終于啟動(dòng)調(diào)查
下一篇: GPU競(jìng)爭(zhēng)失衡 AMD股價(jià)重挫 分析師:市場(chǎng)只認(rèn)NVIDIA!