10 月 2 日消息,去年剛成立的 Liquid AI 公司于 9 月 30 日發(fā)布了三款 Liquid 基礎模型(Liquid Foundation Models,LFM),分別為 LFM-1.3B、LFM-3.1B 和 LFM-40.3B。這些模型均采用非 Transformer 架構,號稱在基準測試中凌駕同規(guī)模的 Transformer 模型。
注意到,目前業(yè)界在深度學習和自然語言處理方面主要使用 Transformer架構,該架構主要利用自注意力機制捕捉序列中單詞之間的關系,包括 OpenAI 的 GPT、Meta 的 BART 和谷歌的 T5 等模型,都是基于 Transformer 架構。
而Liquid AI 則反其道而行之,其 Liquid 基礎模型號稱對模型架構進行了“重新設想”,據稱受到了“交通信號處理系統(tǒng)、數值線性代數”理念的深刻影響,主打“通用性”,能夠針對特定類型的數據進行建模,同時支持對視頻、音頻、文本、時間序列和交通信號等內容進行處理。
Liquid AI 表示,與 Transformer 架構模型相比 LFM 模型的RAM用量更少,特別是在處理大量輸入內容場景時,由于 Transformer 架構模型處理長輸入時需要保存鍵值(KV)緩存,且緩存會隨著序列長度的增加而增大,導致輸入越長,占用的RAM越多。
而 LFM 模型則能夠避免上述問題,系列模型能夠有效對外界輸入的數據進行壓縮,降低對硬件資源的需求,在相同硬件條件下,這三款模型相對業(yè)界競品能夠處理更長的序列。
參考 Liquid AI 首批發(fā)布的三款模型,其中 LFM-1.3B 專為資源受限的環(huán)境設計,而 LFM-3.1B 針對邊緣計算進行了優(yōu)化,LFM-40.3B 則是一款“專家混合模型(MoE)”,該版本主要適用于數學計算、交通信號處理等場景。
這些模型在通用知識和專業(yè)知識的處理上表現較為突出,能夠高效處理長文本任務,還能夠處理數學和邏輯推理任務,目前該模型主要支持英語,不過也對中文、法語、德語、西班牙語、日語、韓語和阿拉伯語提供有限支持。
根據 Liquid AI 的說法,LFM-1.3B 在許多基準測試中擊敗了其他 1B 參數規(guī)模的領先模型,包括蘋果的 OpenELM、Meta 的 Llama 3.2、微軟的 Phi 1.5 以及 Stability 的 Stable LM 2,這標志著首次有非 GPT 架構的模型明顯超越了 Transformer 模型。
而在 LFM-3.1B 方面,這款模型不僅能夠超越了 3B 規(guī)模的各種 Transformer 模型、混合模型和 RNN 模型,甚至還在特定場景超越上一代的 7B 和 13B 規(guī)模模型,目前已戰(zhàn)勝谷歌的 Gemma 2、蘋果的 AFM Edge、Meta 的 Llama 3.2 和微軟的 Phi-3.5 等。
LFM-40.3B 則強調在模型規(guī)模和輸出質量之間的平衡,不過這款模型有所限制,雖然其擁有 400 億個參數,但在推理時僅啟用 120 億個參數,Liquid AI 聲稱進行相關限制是因為模型出品質量已經足夠,在這種情況下對相應參數進行限制“反而還能夠提升模型效率、降低模型運行所需的硬件配置”。
本文鏈接:http://www.tebozhan.com/showinfo-45-8028-0.html非 Transformer 架構 AI 模型 Liquid 問世,號稱性能“凌駕 Meta Llama 微軟 Phi”
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com