快科技2月14日消息,安謀科技宣布,搭載新一代“周易”NPU處理器的硬件平臺(tái),已經(jīng)成功在端側(cè)部署并運(yùn)行DeepSeek-R1系列模型,而且性能卓越、成本優(yōu)異。
新款“周易”NPU采用專為AI大模型特性優(yōu)化的架構(gòu)設(shè)計(jì),Beta測試版本已在2024年底向早期用戶開放評(píng)估測試,預(yù)計(jì)今年上半年正式發(fā)布亮相。
DeepSeek-R1 1.5B、7B蒸餾版本推出后,安謀科技新一代“周易”NPU在很短的時(shí)間內(nèi),就在Emulation平臺(tái)上完成了部署與優(yōu)化,并在FPGA平臺(tái)上成功實(shí)現(xiàn)了端到端應(yīng)用的演示。
測試顯示,在標(biāo)準(zhǔn)單批次輸入、上下文長度為1024的測試環(huán)境中,新款“周易”NPU在首字計(jì)算階段的算力利用率突破40%,解碼階段的有效帶寬利用率超過80%。
帶寬利用率呈現(xiàn)高線性特性,能夠靈活適配16GB/s至256GB/s的系統(tǒng)帶寬需求。
7B版本、1024上下文長度的場景下,保障模型應(yīng)用精度的同時(shí),新款“周易”NPU的高處理速度可達(dá)每秒40 tokens,并支持動(dòng)態(tài)長度的模型推理輸入。
這也展現(xiàn)了安謀科技軟件棧對大模型的成熟支持、深度優(yōu)化,包括動(dòng)態(tài)推理優(yōu)化和硬件算力潛力的挖掘,從而顯著提升推理速度和吞吐量。
目前,軟件棧已支持Llama、Qwen、DeepSeek、ChatGLM、MiniCPM等多種主流大模型,并提供與Hugging Face模型庫的對接工具鏈,方便直接部署主流模型。
硬件層面,新一代“周易”NPU采用7nm工藝制造,單Cluster算力高可達(dá)80 TOPS(每秒80萬億次計(jì)算),能夠輕松應(yīng)對超過16K上下文長度的大模型部署需求,同時(shí)對外帶寬提高至256GB/s,解決大模型計(jì)算的帶寬瓶頸問題。
它還全面支持FP16數(shù)據(jù)精度計(jì)算,完整支持INT4軟硬量化加速,還支持多核算力擴(kuò)展,滿足端側(cè)模型的低首字延遲需求。
它還具備強(qiáng)大的多任務(wù)并行處理能力,通過細(xì)粒度的任務(wù)調(diào)度和優(yōu)先級(jí)資源分配,實(shí)現(xiàn)多任務(wù)靈活切換,確保傳統(tǒng)語音、視覺業(yè)務(wù)、大模型應(yīng)用的高效協(xié)同。
本文鏈接:http://www.tebozhan.com/showinfo-22-130640-0.html安謀科技下代“周易”NPU成功部署DeepSeek-R1:速度高達(dá)40 tokens/s
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com