快科技7月31日消息,據(jù)媒體報道,2025(第二屆)產(chǎn)融合作大會在北京召開。會上,浪潮存儲重磅發(fā)布了推理加速存儲產(chǎn)品AS3000G7,旨在解決大模型推理中因KV Cache重復(fù)計算導(dǎo)致的算力浪費和時延問題,為金融、科研等領(lǐng)域的模型規(guī)模化落地提供關(guān)鍵支撐。
當(dāng)前,大模型推理高度依賴昂貴的GPU服務(wù)器,其利用效率直接決定了模型從“實驗室”走向“生產(chǎn)線”的速度。
與此同時,IDC預(yù)測未來五年智能算力規(guī)模將增長1.7倍,且到2027年,推理工作負(fù)載占比將超過70%,提升GPU利用效率的需求愈加迫切。
浪潮存儲AS3000G7創(chuàng)新性地提出“以存代算”方案。該產(chǎn)品能夠集中存儲所有KV Cache及多輪對話結(jié)果。
其架構(gòu)將KV Cache從GPU本機內(nèi)存,通過高速網(wǎng)絡(luò)緩存至AS3000G7。在后續(xù)對話中,系統(tǒng)可按需直接拉取緩存,徹底避免了重復(fù)計算。
這一突破性設(shè)計顯著節(jié)省了算力消耗,提升了寶貴的GPU資源利用率,加速了大模型在實際場景中的高效應(yīng)用。
本文鏈接:http://www.tebozhan.com/showinfo-17-174505-0.html推理加速存儲AS3000G7發(fā)布:以存代算 節(jié)省算力消耗
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com