當前位置：首頁 > 元宇宙 > AI

Meta Llama 4口碑翻車：開源大模型競爭加劇下的失速之痛？

來源：責編：時間：2025-04-09 07:27:20 86觀看

導讀在人工智能領域，開源大模型Llama 4的發布風波持續發酵，引發廣泛關注和討論。4月8日，備受矚目的大模型評測平臺Chatbot Arena發表了一份措辭嚴厲的聲明，針對社群對meta新模型Llama 4排名的質疑，承諾將公開2000多場真人對比

在人工智能領域，開源大模型Llama 4的發布風波持續發酵，引發廣泛關注和討論。4月8日，備受矚目的大模型評測平臺Chatbot Arena發表了一份措辭嚴厲的聲明，針對社群對meta新模型Llama 4排名的質疑，承諾將公開2000多場真人對比測試的完整數據，并罕見地點名meta。

Chatbot Arena指出，meta應該更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一個針對人類偏好優化的定制化模型。平臺正在更新排行榜的策略，以避免此類混淆再次發生。這一聲明不僅是對當前事件的澄清，更是對整個大模型行業的一次警示。

Chatbot Arena由加州大學伯克利分校發起，通過真人盲測機制，讓開發者和AI愛好者在平臺上用相同問題向兩款模型提問，對比回答內容并投票打分。這種獨特的評測方式使其成為外界最為信賴的大模型排行榜之一。模型在Chatbot Arena排行榜的排名，直接影響其在媒體和開發者群體中的口碑與采納率。

因此，當meta在4月5日發布最新一代開源大模型Llama 4，并迅速沖上Chatbot Arena排行榜第二，僅次于Google前腳發布的Gemini 2.5 Pro時，引起了所有人的好奇和期待。然而，很快社區發現，這一版本是未公開、定制化調優的實驗模型，而非meta開源的正式版。爭議由此爆發：這是否構成“刷榜”？Chatbot Arena是否被利用為營銷工具？meta為何要如此操作？

不僅如此，在部分官方未展示的專業基準測試中，Llama 4的表現也不盡如人意，幾乎墊底。許多首批嘗試的用戶在Reddit等社交平臺上表達了失望，指出Llama 4在編程能力上的不足。有用戶提到：“考慮到Llama-4-Maverick有402B的參數量，我為什么不直接使用DeepSeek-V3-0324呢？或者Qwen-QwQ-32B可能更合適——雖然性能相似，但它的參數量只有32B?！?span style="display:none">TkN28資訊網——每日最新資訊28at.com

回溯至4月5日，meta在官方博客上宣布Llama 4系列模型面向社區開源，包括Llama 4 Scout、Llama 4 Maverick以及仍在訓練中的“教師模型”Llama 4 Behemoth，均首次采用混合專家（MoE）架構。其中，最受關注的Maverick版本擁有128個“專家”，170億活躍參數（總參數為4000億），meta將其描述為“同類最佳的多模態模型”。

然而，Llama 4發布后不久，情況便急轉直下。首批用戶對Llama 4的表現并不滿意，尤其是在需要代碼能力和嚴謹邏輯推理的場景中，Llama 4的表現并未兌現超越GPT、DeepSeek的承諾。在Aider Chat提供的Polyglot編程測試中，Maverick版本的正確率僅為16%，處于排行榜末尾，與其龐大的參數體量完全不符，甚至落后于規模更小的開源模型，如Google Gamma。

面對風評下滑和嚴厲質疑，meta團隊迅速出面澄清。經手“后訓練”的meta GenAI成員虞立成（Licheng Yu）表示，虛心聆聽各方反饋，并希望能在下一版有所提升。他強調，meta從未為了刷點而針對測試集進行過度擬合。同時，meta GenAI的副總裁Ahmad Al-Dahle也在社交媒體上明確表示，meta沒有在測試集上訓練Llama 4。

盡管這些回應試圖平息爭議，但Llama 4的真實能力仍備受質疑。作為開源陣營中曾經“最有希望挑戰OpenAI”的旗手，Llama 4原本承載著開發者與產業界的高度期待。然而，它在發布一周內便從“高光”跌入“信任危機”，成為大模型競賽中一次罕見的口碑“滑鐵盧”。

追根究底，Llama 4的問題不在于造假，而在于開源大模型競爭加劇下的失速。過去兩年，meta憑借Llama 2和Llama 3逐步在開源模型市場上建立起“領先、可靠”的認知。然而，隨著DeepSeek V3/R1的發布，開源與閉源模型的差距被扭轉，且開源模型的發展速度大大加快。這讓原本作為“開源領導者”的Llama面臨更大的壓力。

meta也未能控制住動作的變形。Llama-4-Maverick-03-26-Experimental針對對話模式的優化本身無可厚非，但“首發”Chatbot Arena的目的卻路人皆知。在參數規模膨脹、架構復雜化（MoE）的同時，Llama 4很可能沒有留出足夠的測試和改進時間，才導致發布后不穩定的性能表現。

舉報 0收藏 0打賞 0評論 0

更多>同類資訊