快科技2月6日消息,短短兩周,DeepSeek成為全球增速快的AI應(yīng)用,憑借卓越的性能、廣泛的應(yīng)用場景,儼然成為行業(yè)標桿,適配和部署也得到了全行業(yè)的鼎力支持,昆侖芯現(xiàn)在也加入了這一行列。
昆侖芯前身為百度智能芯片及架構(gòu)部,2021年4月完成獨立融資,首輪估值約130億元,在國內(nèi)早布局AI加速領(lǐng)域,在體系結(jié)構(gòu)、芯片實現(xiàn)、軟件系統(tǒng)、場景應(yīng)用上均有深厚積累。
就在2月5日,也就是蛇年開工當天,昆侖芯新一代產(chǎn)品P800萬卡集群點亮,3萬卡集群也將于近日點亮。
目前,昆侖芯已完成Deepseek訓(xùn)練推理的全版本適配,而且性能卓越,可一鍵部署,成本效率極高。
事實上,DeepSeek-V3/R1上線不久,昆侖芯便率先完成了全版本模型適配,包括DeepSeek MoE模型及其蒸餾的Llama/Qwen等小規(guī)模dense模型。
同時,昆侖芯也已全面適配文心系列、Llama、Qwen、ChatGLM、Baichuan等各類大模型的推理和訓(xùn)練任務(wù),性能優(yōu)勢明顯,并上線運行各類大模型任務(wù)。
據(jù)介紹,昆侖芯P800可以較好底支撐Deepseek系列MoE模型大規(guī)模訓(xùn)練任務(wù),全面支持MLA、多專家并行等特性,只需32臺即可支持模型全參訓(xùn)練,高效完成模型持續(xù)訓(xùn)練和微調(diào)。
P800的顯存規(guī)格優(yōu)于同類主流GPU 20-50%,對MoE架構(gòu)更加友好,且率先支持8bit推理,單機8卡即可運行671B模型,因此更易于部署,可顯著降低運行成本。
目前,P800已經(jīng)快速適配支持了Deepseek-V3/R1的持續(xù)全參數(shù)訓(xùn)練,LoRA等PEFT能力,提供給用戶開箱即用的訓(xùn)練體驗。
基于昆侖芯完整的軟件生態(tài)棧,只需兩步,就可以輕松實現(xiàn)在昆侖芯P800上進行DeepSeek-V3/R1推理部署。
1、資源準備
主要是鏡像和模型,鏡像提供完整的依賴環(huán)境開箱即用。
昆侖芯P800支持8bit推理,下載官方權(quán)重后使用如下命令進行量化;其他不同尺寸蒸餾模型則通過huggingface下載即可。
2、啟動服務(wù)&請求示例
server和client使用方式和vllm社區(qū)基本一致,零成本上手。
啟動服務(wù)可在鏡像中一鍵啟動,采樣和推理參數(shù)可根據(jù)實際業(yè)務(wù)場景在腳本中配置。
下圖為一個簡單的請求示例:
本文鏈接:http://www.tebozhan.com/showinfo-24-129220-0.html3萬卡集群點亮!國產(chǎn)AI加速卡昆侖芯全面適配DeepSeek
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com