Google最近宣布,其數據中心已開始使用包含TPU v5p的AI加速器。這種新的加速器被視為Google迄今為止最強大、最具擴展性和彈性的AI加速器,被廣泛認為是AI Hypercomputer系統中的關鍵要素。
Google的數據中心正在廣泛運用TPU v5p,以提高大型語言模型(LLM)的訓練速度。據Google公布的數據顯示,與TPU v4相比,TPU v5p在進行LLM訓練時的速度要快2.8倍。這種顯著的提升將極大地加速AI工作負載的處理速度,對于那些需要大量計算資源和時間來訓練和微調大模型的AI應用來說,這是一個重大的進步。
Google的這一進步凸顯了TPU迭代的速度正在加快。就在8月份,Google Cloud才剛剛推出了TPU v5e,這表明TPU的迭代速度已經悄然加快。這種快速的迭代使得Google能夠保持其在AI領域的領先地位,并滿足不斷增長的AI工作負載的需求。
Google Cloud機器學習和云端AI副總Amin Vahdat強調,為了有效地管理AI工作負載,需要一個完整的AI分層系統(AI stack),包括算力、儲存、網絡、軟件和相關的開發架構。這些組件需要相互協同,以提供最佳的性能和效率。
Google的AI Hypercomputer基礎設施旨在為AI工作負載提供優化支持。這個基礎設施從底層開始,首先是硬件層,包括算力(GPU和TPU)、儲存(區塊、檔案和物件類)以及網絡資源。這里運用了水冷散熱、光纖網絡交換等相關技術。
再往上,是開源軟件層和消費應用層。TPU不僅被Google自用,也提供給開發者和企業用戶使用,以加速他們的AI應用開發時程。目前,已經有多個客戶案例,包括Salesforce、Lightricks等。
值得注意的是,云服務領域的領導者AWS最近也提出了生成式AI分層系統的概念。在這個系統中,底層算力包括GPU和AWS的自研芯片系列和開發平臺,而上層則是開發工具和應用程序。
微軟也是云服務領域的巨頭,最近也公布了訓練和推論用的AI芯片Maia以及通用運算芯片Cobalt。微軟表示,這些自研芯片將在2024年導入其數據中心。微軟強調,基礎設施系統涵蓋了芯片、軟件、服務器、機柜、冷卻系統等各個層面,每個層面都在不斷優化并走向自行設計。
本文鏈接:http://www.tebozhan.com/showinfo-27-39427-0.htmlGoogle加速TPU迭代,打造AI超算
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com