2 月 18 日消息,DeepSeek 今日官宣推出NSA(Native Sparse Attention),這是一種硬件對齊且原生可訓練的稀疏注意力機制,用于超快速長上下文訓練與推理。
NSA 的核心組件包括:
動態分層稀疏策略
粗粒度 token 壓縮
細粒度 token 選擇
DeepSeek 官方表示,該機制可優化現代硬件設計,加速推理同時降低預訓練成本,并且不犧牲性能。在通用基準、長上下文任務和基于指令的推理上,其表現與全注意力模型相當或更加優秀。
附論文鏈接:
https://arxiv.org/abs/2502.11089
本文鏈接:http://www.tebozhan.com/showinfo-45-10902-0.htmlDeepSeek 再放降本大招:NSA 官宣發布,加速推理降低成本,并且不犧牲性能
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com