說起AI大語言模型,相信熟悉的人都會立刻聯想到性能強大的通用CPU處理器、專用GPU加速器,只有它們才能提供足夠的算力進行訓練。
不過在推理應用方面,算力需求就沒有那么高了,再加上廠商們在軟硬件和開發工具上的不斷優化,一臺輕薄的筆記本如今也能輕松勝任大量AI工作,AI PC的時代正在逐漸到了。
比如Intel,如今的12/13代酷睿處理器、銳炫A系列顯卡,以及即將發布的全新酷睿Ultra處理器,都有足夠的算力滿足生成式AI(AIGC)的需求。
再加上Intel的軟件生態、模型優化,可以快速推動AIGC場景在PC上的落地,包括輕薄本、創作本、全能本、游戲本、臺式機等多種形態。
特別是通過模型優化,Intel大大降低了對硬件資源的需求,進而提升推理速度,使得社區開源模型可以很好地運行在PC上。
以大語言模型為例,Intel通過13代酷睿處理器XPU加速、低比特(low-bit)量化,結合其他軟件層面優化,通過BigDL-LLM框架,就可以運行在16GB及以上內存的PC上運行高160億參數。
已經驗證過的模型包括但不限于:LLAMA/LLAMA2、ChatGLM/ChatGLM2、MPT、Falcon、MOSS、Baichuan、QWen、Dolly、RedPajama、StarCoder、Whisper等等。
此外,Intel還提供了Transformers、LangChain等易用的API接口,并支持Windows、Linux操作系統。
比如,Intel正在打造的開源框架BigDL-LLM,專門針對Intel硬件的低比特量化設計,支持INT3、INT4、INT5、INT8等各種低比特數據精度,性能更好,內存占用更少。
它在i9-12900K處理器上就可以達成飛快的運行速度,輸出性能達到了每個Token 47毫秒左右,已經不弱于很多云側計算。
在LLaMA2 130億參數大語言模型、StarCoder 155億參數代碼大模型上,Intel酷睿處理器也都能獲得良好的運行速度。
Intel還設計了一個大語言模型DEMO,集成ChatGLM2、LLaMA2、StarCoder,通過優化和量化操作,在任何基于12/13代酷睿的PC上都可以快速生成想要的結果,哪怕是輕薄本。
這個DEMO可以選擇不同的大語言模型、設定不同的參數,支持中文應用、英文應用、代碼生成三大方面,其中中文應用就包括聊天助手、情感分析、中文翻譯、故事創作、生成大綱、信息提取、美食指南、旅游規劃等八個方面,覆蓋日常生活、工作的方方面面。
此外,Intel還積極擁抱AI社區,基于OpenVINO PyTorch后端方案,通過Pytorch API,使得社區開源模型可以很好地運行在Intel的消費級處理器、集成顯卡、獨立顯卡、專用AI引擎之上。
比如圖形視覺領域火的Stable Diffusion的實現Automatic1111 WebUI,已經可以在Intel處理器、顯卡上以FP16的浮點精度運行,包括文生圖、圖生圖、局部修復等都可以獲得良好的體驗。
哪怕是使用Arc A730M這樣的入門級筆記本顯卡,都可以在幾秒鐘內完成高質量的文生圖、圖生圖、圖像風格轉換等,從而極大地節省工作量,讓設計師將更多精力放在創意上。
這足以證明,在Intel軟硬件的聯合調校之下,一臺普通的筆記本在端側運行大模型,依然可以獲得足夠快的響應速度和良好的體驗。
相信隨著全行業的不斷努力,PC端側的AI應用會越來越廣泛、高效,讓更多人隨時隨地享受AI帶來的變革性體驗。
本文鏈接:http://www.tebozhan.com/showinfo-24-14867-0.html運行130億參數的大語言模型!你只需要一臺輕薄的AI PC
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com