9 月 6 日,2024 全球 AI 芯片峰會在北京召開。全球 AI 芯片峰會至今已成功舉辦六屆,現已成為國內規模最大、規格最高、影響力最強的產業峰會之一。本屆峰會以“智算紀元共筑芯路”為主題,共 50 多位來自 AI 芯片、Chiplet、RISC-V、智算集群與 AI Infra 系統軟件等領域的嘉賓參與進行了報告、演講、高端對話和圓桌 Panel,對 AI 芯片筑基智算新紀元進行了全方位解構。
高通 AI 產品技術中國區負責人萬衛星受邀參加大會開幕式,并發表了以“終端側 AI 創新開啟智能計算全新體驗”為主題的演講。他在演講中提出,高通公司持續深耕 AI 領域,面對當前生成式 AI 的飛速發展,高通的領先 SoC 解決方案提供了異構計算系統和具備高性能低功耗的強大 NPU,能夠滿足當前豐富生成式 AI 用例的不同需求和算力要求,并對實現最佳性能和能效至關重要。利用高通公司推出的領先第三代驍龍 8 移動平臺和驍龍 X Elite 計算平臺,終端側生成式 AI 現已應用于旗艦終端和用例,終端側生成式 AI 的時代已經到來。
演講全文如下:
大家上午好!非常感謝主辦方的邀請,讓我能夠代表高通公司再次參加本次活動,跟大家分享 AI 芯片在生成式 AI 這個當前最火熱的賽道上,高通公司做的一些工作。今天我給大家帶來的演講主題是“終端側 AI 創新開啟智能計算全新體驗”。
作為一家芯片公司,高通為 AI 應用的加速專門打造了高算力、低功耗的 NPU。首先,我會給大家簡單介紹一下這款高算力、低功耗 NPU 的演進路徑。可以說,這是一個非常典型的由上層 AI 用例驅動底層硬件設計的演進過程??梢曰叵胍幌?,在 2015 年左右,大家所了解的 AI 用例主要是比較簡單的語音識別、語音喚醒、圖片分類、圖片識別等。這些用例背后的底層模型,都是一些比較淺層的、規模比較小的 CNN 網絡。那個時候,我們就給這顆 NPU 搭配了標量和矢量的硬件加速單元,滿足對于性能的需求。
在 2016 年之后,計算攝影的概念在市場上得到普及,我們也將研究方向從傳統的語音識別、圖像分類擴展到了對圖片和視頻的處理。隨著基于像素級別的處理對算力的要求越來越高,支撐這些應用的模型除了更大規模、更多層數的 CNN 網絡之外,還有其他新型的網絡,比如 LSTM、RNN,甚至大家現在非常熟悉的 Transformer。這些網絡對算力和功耗的要求非常敏感,所以我們在標量和矢量加速單元的基礎之上,進一步配備了一顆張量加速器,以提供更加充沛的算力,滿足應用對像素級、對 Transformer 時序網絡、對算力的要求。
2023 年開始,大模型,尤其是大語言模型開始真正火爆起來。其實 70% 以上的大語音模型都是基于 Transformer。因此,我們給這顆 NPU 專門配備了 Transformer 支持。同時,我們在保持標量、矢量、張量等硬件加速的基礎之上,增加更多的硬件加速單元,包括集成獨特的微切片推理技術,進一步針對對算力要求和 Transformer 并行化要求較高的模型推理進行加速。
未來我們會持續地加大對 NPU 的投入。生成式 AI 的未來一定是多模態的趨勢,所以今年我們也在致力于實現將一些真正的多模態大模型完整地運行在端側。在今年 2 月份的 MWC 巴塞羅那 2024 上,高通公司基于第三代驍龍 8 移動平臺展示了一個 demo,就是讓超過 70 億參數的多模態語言模型(LMM)完整地跑在端側。
從模型規模來講,高通未來會支持更大規模的大語言模型,今年我們將有希望看到超過 100 億參數以上的大語言模型完整運行在端側。當然,終端側需要跑多大的模型,取決于實際的用例和這些用例對 KPI 的要求。
我們為什么致力于在終端側去推理這些生成式 AI 模型呢?在終端側進行 AI 處理不僅具有成本、個性化、時延等優勢,我們認為還有最重要的一點,就是隱私性。包括手機、PC 等個人設備上的個人信息、聊天記錄、相冊信息、甚至包括用戶的生物特征信息等等,從用戶角度來講,不希望這些數據上傳到云端做處理。通過運行大語言模型、大視覺模型等,在終端側完成這些數據的處理,我們認為這可以很好地保護普通用戶的隱私。從另外一個角度來講,終端側是離數據產生最近的地方。因為產生這些數據的設備,包括麥克風、攝像頭,各種各樣的傳感器數據。在離數據產生最近的地方去完成數據的處理,這也是非常自然而然保護用戶隱私的處理方法。
大家對高通 Hexagon NPU 的了解,我相信大部分是從搭載驍龍平臺的手機開始的,但是高通除了有驍龍移動平臺之外,還有非常豐富的產品線,覆蓋汽車、物聯網、PC、可穿戴設備等。高通 Hexagon NPU 已經賦能了我們的絕大多數產品,也就意味著我們的合作伙伴、開發者朋友們可以在這些不同的產品形態上,用 NPU 來做算法的加速、享受充沛的算力。除了硬件之外,我們還有統一的高通 AI 軟件棧(Qualcomm AI Stack),可以讓 OEM、開發者在高通所支持的不同產品形態上去完成模型的部署和優化。
接下來更深入地介紹一下高通 Hexagon NPU 的硬件架構。以第三代驍龍 8 為例,高通 Hexagon NPU 中最重要的是張量、矢量和標量三大加速單元,它們能夠對不同的數據類型做處理,例如張量加速器可以用來處理卷積運算、張量數據。此外還包括片上內存,讓這三個加速器能夠協作更高效。神經網絡推理是有很多層的,每層之間都會有一些中間數據。而這些中間數據如果沒有片上內存做緩存的話,可能都要跑在 DDR 上,這樣對性能、功耗都會有非常大的影響。所以我們通過在 NPU 上配備比較大的片上內存,能夠更好地釋放 AI 算力。
此外,高通 NPU 的整個硬件設計會隨著業界先進工藝的發展不斷迭代。這顆處理器的微架構,包括前端設計和后端設計也會每年進行迭代,實現最佳性能和能效。不管是 AI 手機還是 AI PC,對功耗都有很高的要求,我們要保證設備在日常使用中不會發燙、有更長續航。因此我們給 NPU 專門打造了加速器專用電源,以實現最佳能效比。我們還會通過升級微切片技術,支持網絡深度融合,獲取最佳性能。除了前面這些技術升級之外,我們還會提供更高主頻,支持更大的 DDR 帶寬。對于生成式 AI 模型,尤其是在解碼階段,需要 DDR 的支持,所以更大的 DDR 帶寬就意味著大模型的解碼速度更快,能給消費者帶來更好的用戶體驗。
除了專門的高算力、低功耗 NPU 之外,我們還有一個單獨的模塊叫高通傳感器中樞,它也可以用來做 AI 推理加速。它是 DSP 加多核 Micro NPU 的設計,最大的特點是功耗特別低,適用于一些需要始終在線的任務,包括始終開啟的攝像頭、手勢識別、人臉檢測、始終開啟的語音喚醒等等。因為這些用例需要始終在線,所以對功耗尤其敏感。我們在硬件設計上,也會通過專門的傳感器中樞加速模塊來適配,對功耗極其敏感的用例進行加速。
前面介紹了非常多的硬件內容,下面會從用例方面來介紹一下我們是如何完成這些工作的。目前有非常多的 AI 用例,包括自然語言理解、自然語言處理相關的用例,還有計算攝影中降噪、超分、HDR、背景模糊等圖像處理相關的用例,現在還有視頻生成、視頻處理等。此外,現在 AI 在游戲里也有很多應用,像 AI NPC、自動劇情、地圖繪制、二創等等。這些用例對各種 KPI 的要求和算力要求也不一樣,有按需型用例、持續型用例和泛在型用例,很難有單一的處理器可以滿足所有 KPI 的要求。
舉個簡單例子,有些任務是在 CPU 運行中突發的任務,這時理論上不應該喚醒全新的 IP,否則時延會非常大,這個時候可以考慮用 CPU 架構去做加速。還有一些用例對算力要求比較高,可能需要長時間的處理,包括游戲領域、視頻 / 圖片處理領域以及大模型等用例。還有一種用例可能需要始終在線,這種時候用 CPU、GPU 或者 NPU 去加速都不合適,因為它對功耗極其敏感。
高通通過推出異構計算系統,來滿足這些廣泛 AI 用例對不同算力和 KPI 的要求。我們提供的異構計算系統,包括通用的硬件加速單元 ——CPU 和 GPU,用來處理實時的、突發的、對時延非常敏感的任務;我們還有 NPU,它特別適用于需要持續性處理、對算力要求比較高、對功耗要求也比較高的一些任務,包括大模型、視頻 / 圖片處理以及游戲中持續運行的用例等;此外,還有傳感器中樞用來處理始終開啟的手勢識別、語音喚醒等用例。
設計這樣的異構計算系統,我們考慮了哪些因素,是怎么完成這個目標的呢?第一,我們希望提供極致的性能;第二,我們也希望實現比較好的持續性能表現,包括能效比;第三,我們也會從整體成本上考慮,以及考慮芯片尺寸的大小。最后我們也會考慮單位面積能夠提供的算力。我們充分考慮這些因素,打造出這樣一顆 NPU 和具有異構計算系統的 SoC,為消費者帶來了極致的 AI,尤其是生成式 AI 的用戶體驗。
前面介紹了我們的 AI 硬件技術,包括各種各樣的 IP 處理器、異構計算系統。接下來,我會跟大家介紹高通所賦能的 AI 體驗。
自去年年底第三代驍龍 8 和驍龍 X Elite 平臺發布后,大家能夠看到市面上已經推出了非常多搭載這兩款平臺的產品。很多產品其實已經具有了端側大模型的能力,我在這里舉幾個例子:第一個是今年年初發布的三星 Galaxy S24 Ultra,它能夠支持實時翻譯的功能;第二個是 OPPO Find X7 Ultra 推出了 AI 消除功能,如果想要將圖片里面的背景或路人移除的話,可以非常方便地用這個功能得到你想要的照片;第三是榮耀 Magic6 系列的智慧成片功能,可以非常方便地在圖庫里面找到與 Prompt 相關的圖片或視頻,生成一段 vlog 分享給你的家人跟朋友。
今年在 MWC 巴塞羅那 2024 期間,高通展示了在 Android 智能手機上運行的大語言和視覺助理大模型(LLaVA),這是一個超過 70 億參數的大型多模態語言模型(LMM)。我們正在攜手合作伙伴,將多模態大模型完整地帶到端側,帶到消費者面前。
第三代驍龍 8 和驍龍 X Elite 平臺已經賦能推出了豐富的具備終端側 AI 或生成式 AI 能力的旗艦終端和用例。這些用例既有娛樂類的,包括圖片生成、圖片編輯等,也有生產工具類的,包括寫作助手、文本總結、實時翻譯等,能夠給日常生活或工作帶來更高的效率。
總結一下今天的分享內容,第一高通的 SoC 解決方案提供了異構計算系統,包括多個 IP 處理器組件,其中有通用的 CPU、GPU、專用的 NPU、超低功耗的傳感器中樞,這些 IP 處理器組件各自會承擔不同的任務,包括對時延敏感的、對算力敏感的、或對功耗敏感的任務。同時,它們也可以互相組合、共同完成一些更復雜的處理任務,提供端到端的服務。在 2023 年驍龍峰會期間,我們展示了怎么利用高通的異構計算系統去完成端到端的虛擬化身 AI 助手,當時我們把整個處理管線拆解成三部分:前處理、中間的文本生成、虛擬化身渲染的后處理。其中前處理是跑在 CPU 上,中間的大語言模型跑在 NPU 上,后處理跑在 GPU 以及傳感器中樞上面。第二,我們提供強大、算力充沛、超低功耗的專用 NPU,方便大家在 NPU 上部署更大、更先進、更豐富的模型。第三,我們認為,終端側生成式 AI 時代已經到來,驍龍計算平臺和驍龍移動平臺已經賦能了非常多具備終端側生成式 AI 功能的終端產品。
最后,我也想在這里做一個小小的預告,搭載最新高通 Oryon CPU 的下一代驍龍移動平臺,即將在今年 10 月 21-23 日舉行的驍龍峰會上發布,大家敬請期待,謝謝!
本文鏈接:http://www.tebozhan.com/showinfo-26-112129-0.html異構計算 + 高性能低功耗 NPU,高通正在推動終端側生成式 AI 發展
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com