8 月 12 日消息,今日,華為正式發布 AI 推理創新技術 UCM(推理記憶數據管理器)。
據了解,作為一款以 KV Cache 為中心的推理加速套件,UCM 融合了多類型緩存加速算法工具,分級管理推理過程中產生的 KV Cache 記憶數據,可擴大推理上下文窗口,實現高吞吐、低時延的推理體驗,降低每 Token 推理成本。該技術已率先在中國銀聯“客戶之聲”“營銷策劃”“辦公助手”三大業務場景中,開展智慧金融 AI 推理加速應用試點,并已取得成果。
華為計劃于 2025 年 9 月正式開源 UCM,屆時將在魔擎社區首發,后續逐步貢獻給業界主流推理引擎社區,并共享給業內所有 Share Everything (共享架構) 存儲廠商和生態伙伴。
本文鏈接:http://www.tebozhan.com/showinfo-45-26084-0.html華為發布 AI 推理創新技術 UCM:可實現高吞吐、低時延推理體驗,計劃 9 月開源
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com