AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

Meta LIama 4 重奪開源第一:DeepSeek 同等代碼能力但參數減半,一張 H100 就能跑,還有兩萬億參數超大杯

來源: 責編: 時間:2025-04-08 10:04:22 12觀看
導讀 AI 不過周末,硅谷也是如此。大周日的,Llama 家族上新,一群 LIama 4 就這么突然發布了。這是 Meta 首個基于 MoE 架構模型系列,目前共有三個款:Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。最后一個尚未推

AI 不過周末,硅谷也是如此。大周日的,Llama 家族上新,一群 LIama 4 就這么突然發布了。dnl28資訊網——每日最新資訊28at.com

這是 Meta 首個基于 MoE 架構模型系列,目前共有三個款:dnl28資訊網——每日最新資訊28at.com

Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。dnl28資訊網——每日最新資訊28at.com

最后一個尚未推出,只是預告,但 Meta 已經毫不避諱地稱前兩者是“我們迄今為止最先進的型號,也是同類產品中最好的多模態型號”。dnl28資訊網——每日最新資訊28at.com

詳細來看一些關鍵詞 ——dnl28資訊網——每日最新資訊28at.com

Llama 4 Scout,16 位專家的 170 億激活參數的多模態模型,單個 H100 GPU 可運行,同類 SOTA,并擁有 10M 上下文窗口。dnl28資訊網——每日最新資訊28at.com

Llama 4 Maverick,128 位專家的 170 億激活參數多模態模型,擊敗 GPT-4o 和 Gemini 2.0 Flash,與 DeepSeek-V3 同等代碼能力參數只要一半,主打與 DeepSeek 一樣的性價比,單個 H100 主機即可運行。dnl28資訊網——每日最新資訊28at.com

Llama 4 Behemoth:2 萬億參數的超大超強模型,以上二者都由這個模型蒸餾而來;目前還在訓練中;多個基準測試超過 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

Meta 官推激情表示,這些 Llama 4 模型標志著 Llama 生態系統新時代 —— 原生多模態 AI 創新的開始。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

與此同時,大模型競技場排名迎來一輪更新。dnl28資訊網——每日最新資訊28at.com

此次發布的 Llama 4 Maverick,在困難提示、編碼、數學、創意寫作方面并列第一;得分 1417,不僅大大超越了此前 Meta 自家的 Llama-3-405B(提升了 149 分),還成為史上第 4 個突破 1400 分的模型;。dnl28資訊網——每日最新資訊28at.com

而且跑分明確 —— 超越 DeepSeek-V3,實現亮相即登頂,直接成為排名第一的開源模型。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

谷歌 CEO 劈柴哥第一時間發來賀電:dnl28資訊網——每日最新資訊28at.com

AI 世界,從不平淡!dnl28資訊網——每日最新資訊28at.com

恭喜呀!前進吧,Llama 4 團隊!dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

中杯、大杯首批亮相

了解了 Llama 4 家族全體成員后,我們先來見識一下首批發布的 2 個模型:dnl28資訊網——每日最新資訊28at.com

中杯dnl28資訊網——每日最新資訊28at.com

:Llama 4 Scout(偵查兵 Llama 4)。dnl28資訊網——每日最新資訊28at.com

大杯dnl28資訊網——每日最新資訊28at.com

:Llama 4 Maverick(特立獨行的 Llama 4)。dnl28資訊網——每日最新資訊28at.com

兩者均已能在 Llama 官網和抱抱臉上下載。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

我們抓取并提煉出這倆模型的一些特點:dnl28資訊網——每日最新資訊28at.com

Meta 首批 MoE 架構模型

這是 Llama 系列,第一批使用 MoE(混合專家模型)構建的模型。dnl28資訊網——每日最新資訊28at.com

中杯 Llama 4 Scout 有 17B 激活參數,擁有 16 個專家模型。dnl28資訊網——每日最新資訊28at.com

大杯 Llama 4 Maverick 擁有 17B 激活參數,擁有 128 個專家模型。dnl28資訊網——每日最新資訊28at.com

至于還沒和大家正式見面的超大杯 Llama 4 Maverick,擁有 288B 激活參數,擁有 16 個專家模型。dnl28資訊網——每日最新資訊28at.com

非常長 ———— 的上下文

Llama 4 系列,均具有很長的上下文窗口。dnl28資訊網——每日最新資訊28at.com

這一點主要體現在 Meta 公布的中杯 Llama 4 Scout 的詳細數據里:dnl28資訊網——每日最新資訊28at.com

Llama 4 Scout 提供了行業領先的 100 萬上下文窗口。dnl28資訊網——每日最新資訊28at.com

經過預訓練和后訓練,Llama 4 Scout 長度為 256K,這使基本模型具有高級長度泛化能力。dnl28資訊網——每日最新資訊28at.com

這個配置,讓它在廣泛的測評集上,比 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 的結果更優秀。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

它在「大海撈針」測試上的表現如下:dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

結果如下:dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

那么之前的 Llama 系列模型的上下文窗口情況呢?dnl28資訊網——每日最新資訊28at.com

Llama 1,上下文窗口為 2k;dnl28資訊網——每日最新資訊28at.com

Llama 2,上下文窗口默認為 4k,但可以通過微調等可以拓展到 32k;dnl28資訊網——每日最新資訊28at.com

Llama 3,上下文窗口是 8k,后來 Llama 3.1 的長文本能力拓展到了 128k。dnl28資訊網——每日最新資訊28at.com

Meta 官方博客中是這么寫的:dnl28資訊網——每日最新資訊28at.com

(Llama 4 的長上下文)開辟了一個充滿可能性的世界,包括多文檔摘要、解析廣泛的用戶活動以執行個性化任務以及對龐大的代碼庫進行推理。dnl28資訊網——每日最新資訊28at.com

原生多模態設計

Llama 4 系列,開啟了 Llama 的原生多模態時代。dnl28資訊網——每日最新資訊28at.com

而已經公開對外的中杯和大杯,被官方稱為“輕量級原生多模態模型”。dnl28資訊網——每日最新資訊28at.com

給用戶的體驗就是,上傳一張圖片,可以直接在對話框中提問關于這張圖片的各種問題。dnl28資訊網——每日最新資訊28at.com

不是我說,Llama 終于長眼睛了?。?!dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

上面這張動圖展示的僅僅是最基礎的,“為難”程都升級也不怕。dnl28資訊網——每日最新資訊28at.com

比如喂它一張鋪滿工具的圖片,問它哪些適合來干某個活。dnl28資訊網——每日最新資訊28at.com

它會很快地把適用的工具圈出來:dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

要認顏色 + 認小鳥,也沒在怕的:dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

中杯和大杯都在官方介紹中被打上了“世界上同類產品中最好的多模態模型”的 tag。dnl28資訊網——每日最新資訊28at.com

來看和 Llama 系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite 的對比結果 ——dnl28資訊網——每日最新資訊28at.com

可以看到,在各個測評集上的表現,Llama 4 Scout 樣樣都是新 SOTA。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

語言天賦 Max

經過了預訓練和微調的 Llama 4,掌握全球 12 種語言,以此“方便全球開發者的部署”。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

比 DeepSeek 更狠的“AI 模型拼多多”

一定要跟大家分享的一個細節,Meta 這次在模型 API 價格方面,下狠手了!dnl28資訊網——每日最新資訊28at.com

先說結果:dnl28資訊網——每日最新資訊28at.com

系列超大杯 Llama 4 Maverick,不僅超越了同類型號其它模型,價格還非常之美麗。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

更直觀地來看這張表格,真的狠過 DeepSeek—— 從性能到價格各個緯度。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

要知道,超大杯 Llama 4 Behemoth 屬于是 Llama 4 系列的教師模型。dnl28資訊網——每日最新資訊28at.com

如果說中杯和大杯是輕量級選手,這位就是絕對的重磅玩家。dnl28資訊網——每日最新資訊28at.com

288B 激活參數,16 個專家模型。dnl28資訊網——每日最新資訊28at.com

最重要的是,它的總參數量高達 2000B!dnl28資訊網——每日最新資訊28at.com

在數學、多語言和圖像基準測試中,它提供了非推理模型的最先進性能。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

當“最?!焙汀白畋阋恕睌[在一起的時候,試問哪位開發者會不心動?(doge)dnl28資訊網——每日最新資訊28at.com

訓練細節

用他們自己的話來說,Llama 系列是進行了徹底的重新設計。目前第一組 LIama 4 系列模型,他們也公布了具體的訓練細節。dnl28資訊網——每日最新資訊28at.com

預訓練

他們首次使用混合專家 MoE 架構,在 MoE 架構中,單個 token 僅激活總參數的一小部分。MoE 架構在訓練和推理方面具有更高的計算效率,固定訓練 FLOP 成本情況下質量更高。dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

比如,Llama 4Maverick 模型有 17B 個激活參數和 400B 個總參數。他們使用交替的密集層和混合專家 (MoE) 層來提高推理效率。dnl28資訊網——每日最新資訊28at.com

MoE 層使用 128 位路由(Routed)專家和一位共享專家。每個令牌都會發送給共享專家以及 128 位路由(Routed)專家之一。dnl28資訊網——每日最新資訊28at.com

因此,雖然所有參數都存儲在內存中,但在為這些模型提供服務時,只有總參數的子集被激活。dnl28資訊網——每日最新資訊28at.com

這通過降低模型服務成本和延遲來提高推理效率 ——Llama 4 Maverick 可以在單個 H100 DGX 主機上運行,以便于部署,也可以通過分布式推理實現最高效率。dnl28資訊網——每日最新資訊28at.com

他們早期融合,將文本和視覺 token 無縫集成到統一模型中。dnl28資訊網——每日最新資訊28at.com

他們開發了一種新的訓練技術:MetaP,可以設置關鍵模型超參數,比如每層的學習率和初始化尺度。dnl28資訊網——每日最新資訊28at.com

結果發現,所選的超參數能在批量大小、模型寬度、深度和訓練 token 的不同值之間很好地擴展和泛化 ——dnl28資訊網——每日最新資訊28at.com

Llama 4 通過在 200 種語言(包括 100 多種語言,每種語言有超過 10 億個詞庫)上進行預訓練,實現了開源微調工作,多語言詞庫總量是 Llama 3 的 10 倍。dnl28資訊網——每日最新資訊28at.com

此外,他們使用 FP8 精度進行高效模型訓練,同時不犧牲質量并確保模型 FLOPs 的高利用率 — 在使用 FP8 和 32K GPU 預訓練 Llama 4 Behemoth 模型時,結果他們實現了 390TFLOPs / GPU。dnl28資訊網——每日最新資訊28at.com

用于訓練的整體混合數據包括 30 多萬億個 token,是 Llama 3 預訓練混合物的兩倍多,其中包括各種文本、圖像和視頻數據集。dnl28資訊網——每日最新資訊28at.com

在所謂的“中期訓練”中繼續訓練模型,通過新的訓練方法(包括使用專業數據集進行長上下文擴展)來提高模型的核心功能。dnl28資訊網——每日最新資訊28at.com

后訓練

后訓練階段,他們提出一個課程策略,與單個模式專家模型相比,該策略不會犧牲性能。dnl28資訊網——每日最新資訊28at.com

在 Llama 4 中,采用了一種不同的方法來改造我們的后期訓練管道:dnl28資訊網——每日最新資訊28at.com

輕量級監督微調 (SFT)> 在線強化學習 (RL)> 輕量級直接偏好優化 (DPO)。dnl28資訊網——每日最新資訊28at.com

一個關鍵的教訓是,SFT 和 DPO 可能會過度約束模型,限制在線強化學習階段的探索,并導致精度降低,尤其是在推理、編碼和數學領域。dnl28資訊網——每日最新資訊28at.com

為了解決這個問題,他們使用 Llama 模型作為評判標準,刪除了 50% 以上被標記為簡單的數據,并對剩余的較難數據集進行了輕量級 SFT 處理。dnl28資訊網——每日最新資訊28at.com

在隨后的在線強化學習階段,通過仔細選擇較難的提示,我們實現了性能上的飛躍。dnl28資訊網——每日最新資訊28at.com

此外,他們還實施了一種連續的在線強化學習策略,即交替訓練模型,然后利用模型不斷過濾并只保留中等難度到較高難度的提示。事實證明,這種策略在計算量和準確性的權衡方面非常有利。dnl28資訊網——每日最新資訊28at.com

然后,他們采用輕量級 DPO 來處理與模型響應質量相關的拐角情況,從而有效地在模型的智能性和對話能力之間實現了良好的平衡。流水線架構和帶有自適應數據過濾功能的連續在線 RL 策略,最后造就了現在的 LIama 4。dnl28資訊網——每日最新資訊28at.com

總結來看,Llama 4 架構的一項關鍵創新是使用交錯注意力層,而無需位置嵌入。此外,他們還采用了注意力推理時間溫度縮放來增強長度泛化。dnl28資訊網——每日最新資訊28at.com

這些他們稱之為 iRoPE 架構,其中“i”代表“交錯”注意力層,突出了支持“無限”上下文長度的長期目標,而“RoPE ”指的是大多數層中采用的旋轉位置嵌入。dnl28資訊網——每日最新資訊28at.com

Llama 4 Behemoth

最后,他們還透露了超大模型 Llama 4 Behemoth 一些蒸餾和訓練細節。dnl28資訊網——每日最新資訊28at.com

我們開發了一種新穎的蒸餾損失函數,可通過訓練動態加權軟目標和硬目標。dnl28資訊網——每日最新資訊28at.com

預訓練階段,Llama 4 Behemoth 的代碼蒸餾功能可以攤銷學生訓練中使用的大部分訓練數據計算蒸餾目標所需的資源密集型前向傳遞的計算成本。對于納入學生訓練的其他新數據,他們在 Behemoth 模型上運行前向傳遞,以創建蒸餾目標。dnl28資訊網——每日最新資訊28at.com

后訓練階段,為了最大限度地提高性能,他們刪減了 95% 的 SFT 數據,而小型模型只需刪減 50% 的數據,以實現對質量和效率的必要關注。dnl28資訊網——每日最新資訊28at.com

他們在進行輕量級 SFT 后,再進行大規模強化學習(RL),模型的推理和編碼能力會有更顯著的提高。dnl28資訊網——每日最新資訊28at.com

強化學習方法側重于通過對策略模型進行 pass@k 分析來抽取高難度提示,并根據提示難度的增加精心設計訓練課程。dnl28資訊網——每日最新資訊28at.com

此外還發現,在訓練過程中動態過濾掉優勢為零的提示語,并構建包含多種能力的混合提示語的訓練批次,有助于提高數學、推理和編碼的性能。最后,從各種系統指令中取樣對于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務中表現出色至關重要。dnl28資訊網——每日最新資訊28at.com

由于其規??涨?,要為兩萬億個參數模型擴展 RL,還需要改造底層 RL 基礎設施。dnl28資訊網——每日最新資訊28at.com

他們優化了 MoE 并行化的設計,從而加快了迭代速度;并開發了一個完全異步的在線 RL 訓練框架,提高了靈活性。dnl28資訊網——每日最新資訊28at.com

現有的分布式訓練框架會犧牲計算內存以將所有模型堆疊在內存中,相比之下,他們新基礎架構能夠將不同模型靈活分配到不同 GPU 上,并根據計算速度在多個模型之間平衡資源。dnl28資訊網——每日最新資訊28at.com

與前幾代產品相比,這一創新使訓練效率提高了約 10 倍。dnl28資訊網——每日最新資訊28at.com

One More Thing

要知道,由于昨天 DeepSeek 發了新論文,搞得奧爾特曼都坐不住了,趕緊出來發聲:dnl28資訊網——每日最新資訊28at.com

計劃改變:我們可能在幾周之后先發布 o3 和 o4-mini。dnl28資訊網——每日最新資訊28at.com

GPT-5 就在幾個月后啊~dnl28資訊網——每日最新資訊28at.com

但,誰知道半路又殺出個 Llama 4?!dnl28資訊網——每日最新資訊28at.com

前有猛虎,后有豺狼,OpenAI 你真的得加油了……dnl28資訊網——每日最新資訊28at.com

網友調侃道,當奧爾特曼一睜眼,看到 Llama 4 來了,而且 Llama 4 的成本比 GPT-4.5 降低了 3 個數量級后 ——dnl28資訊網——每日最新資訊28at.com

他的狀態一定是醬嬸兒的:dnl28資訊網——每日最新資訊28at.com

dnl28資訊網——每日最新資訊28at.com

以及相比 Llama,現在可能神秘低調的 DeepSeek,可能不知道什么時候突然就會推出 DeepSeek R2 和 V4… 同在杭州的通義千問也干勁十足,Llama 也好 GPT 也好,基本成為平行參考了。dnl28資訊網——每日最新資訊28at.com

太平洋這頭,已經開始落地應用和智能體了。dnl28資訊網——每日最新資訊28at.com

參考鏈接:dnl28資訊網——每日最新資訊28at.com

[1]https://www.llama.com/dnl28資訊網——每日最新資訊28at.com

[2]https://ai.meta.com/blog/llama-4-multimodal-intelligence/dnl28資訊網——每日最新資訊28at.com

[3]https://x.com/AIatMeta/status/1908598456144531660dnl28資訊網——每日最新資訊28at.com

[4]https://x.com/lmarena_ai/status/1908601011989782976dnl28資訊網——每日最新資訊28at.com

[5]https://x.com/IOHK_Charles/status/1908635624036590070dnl28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:白交衡宇,原標題《LIama 4 發布重奪開源第一!DeepSeek 同等代碼能力但參數減一半,一張 H100 就能跑,還有兩萬億參數超大杯》dnl28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-12013-0.htmlMeta LIama 4 重奪開源第一:DeepSeek 同等代碼能力但參數減半,一張 H100 就能跑,還有兩萬億參數超大杯

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 中科大華為發布生成式推薦大模型:昇騰 NPU 可部署,背后認知一同公開

下一篇: 清明假期廣西高速公路啟用 AI 治理擁堵:可提前 30 分鐘預測堵點

標簽:
  • 熱門焦點
  • 元媧2.7上線:虛擬人視頻制作速度瘋狂翻倍!

    來源:清元宇宙 炎炎夏日努力工作的Q仔的電腦都冒煙兒啦~今天要給大家介紹兩個新小伙伴——小元和小媧,他們將給大家解讀元媧2.7版本重磅更新內容~大家掌聲歡迎~~~本次更
  • 錯過了BRC20還有eths,eth銘文協議

    來源:三頭鳥NFT大家好,我是鳥哥,了解鳥哥的人都知道鳥哥擅擼空投,說實話擼毛雖然回報大但周期還是有點長的,所以除了擼毛我們自己也在研究早期項目,打新,比如BRC20協議ordi當時就有
  • 元宇宙步入暗夜

    撰文 | 文燁豪元宇宙的故事,似乎講不通了。 當下,刮起元宇宙熱潮的Roblox股價已跌去大半,帶頭大哥Meta也正因元宇宙虧損深陷泥潭。 再看國內,從字節“派對島&
  • 字節、騰訊、網易鏖戰元宇宙背后,大廠究竟在爭奪什么?

    正當互聯網商業躊躇不前,互聯網大廠為了在存量中的增長擠破頭皮之時,元宇宙的概念被資本點燃。先是Facebook更名Meta正式進軍元宇宙,然后字節跳動收購了一家VR硬
  • 米哈游推出元宇宙品牌;VR/AR老牌企業當紅齊天完成B輪+融資

    今日熱點:蘋果AR/VR頭顯的FaceTime或基于Memojis和SharePlay構建而成;VR/AR老牌企業當紅齊天完成B輪+融資;米哈游推出元宇宙品牌HoYoverse;國產VR射擊游戲《Contra
  • 2022年最具關注的9個頭像NFT項目

    什么是 PFP NFT 項目?PFP NFT (個人資料圖片NFT)是一組獨特的數字收藏品,人們用來在互聯網平臺上代表自己。這些數字藝術作品通常是一系列可作為頭像的角色,在 Twit
  • 字節覓《原神》,騰訊元宇宙,游戲新王戰舊神?

    文 | 陳橋輝陳奕迅的《紅玫瑰》中有一句歌詞,“得不到的永遠在騷動”,這句話用到如今國內頭部游戲平臺再合適不過。隨著《原神》的異軍突起,使得頭部游戲大廠感受
  • 3月份值得關注的5個NFT項目

    2021年,我們見證了一個新的創造者經濟的誕生。它是在區塊鏈上誕生的。自從NFT成為流行文化的中心舞臺以來,有些藝術家們已經成為了NFT的超級明星,在幾個月的時間
  • 元宇宙的應用行業研究:娛樂可能是元宇宙落地最快的場景之一

    近日,畢馬威正式發布其《初探元宇宙》報告,這也是畢馬威在元宇宙領域發布的首份報告。報告指出,元宇宙在以下十個領域的應用場景尤其值得期待,包括娛樂、社交、零
Top