快科技2月14日消息,安謀科技宣布,搭載新一代“周易”NPU處理器的硬件平臺,已經成功在端側部署并運行DeepSeek-R1系列模型,而且性能卓越、成本優異。
新款“周易”NPU采用專為AI大模型特性優化的架構設計,Beta測試版本已在2024年底向早期用戶開放評估測試,預計今年上半年正式發布亮相。
DeepSeek-R1 1.5B、7B蒸餾版本推出后,安謀科技新一代“周易”NPU在很短的時間內,就在Emulation平臺上完成了部署與優化,并在FPGA平臺上成功實現了端到端應用的演示。
測試顯示,在標準單批次輸入、上下文長度為1024的測試環境中,新款“周易”NPU在首字計算階段的算力利用率突破40%,解碼階段的有效帶寬利用率超過80%。
帶寬利用率呈現高線性特性,能夠靈活適配16GB/s至256GB/s的系統帶寬需求。
7B版本、1024上下文長度的場景下,保障模型應用精度的同時,新款“周易”NPU的高處理速度可達每秒40 tokens,并支持動態長度的模型推理輸入。
這也展現了安謀科技軟件棧對大模型的成熟支持、深度優化,包括動態推理優化和硬件算力潛力的挖掘,從而顯著提升推理速度和吞吐量。
目前,軟件棧已支持Llama、Qwen、DeepSeek、ChatGLM、MiniCPM等多種主流大模型,并提供與Hugging Face模型庫的對接工具鏈,方便直接部署主流模型。
硬件層面,新一代“周易”NPU采用7nm工藝制造,單Cluster算力高可達80 TOPS(每秒80萬億次計算),能夠輕松應對超過16K上下文長度的大模型部署需求,同時對外帶寬提高至256GB/s,解決大模型計算的帶寬瓶頸問題。
它還全面支持FP16數據精度計算,完整支持INT4軟硬量化加速,還支持多核算力擴展,滿足端側模型的低首字延遲需求。
它還具備強大的多任務并行處理能力,通過細粒度的任務調度和優先級資源分配,實現多任務靈活切換,確保傳統語音、視覺業務、大模型應用的高效協同。
本文鏈接:http://www.tebozhan.com/showinfo-22-130640-0.html安謀科技下代“周易”NPU成功部署DeepSeek-R1:速度高達40 tokens/s
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com