Meta 最新基礎(chǔ)模型 Llama 4 發(fā)布 36 小時(shí)后,評(píng)論區(qū)居然是這個(gè)畫風(fēng):
失望,非常失望
不知道他們后訓(xùn)練怎么搞的,總之不太行
在 [各種測(cè)試] 中失敗
……
還被做成表情包調(diào)侃,總結(jié)起來(lái)就是一個(gè)“差評(píng)如潮”。
具體來(lái)看,大家的抱怨主要集中在代碼能力。
最直觀的要數(shù)經(jīng)典“氛圍編程”小球反彈測(cè)試,小球直接穿過(guò)墻壁掉下去了。
反映在榜單上,成績(jī)也相當(dāng)割裂。
發(fā)布時(shí)的官方測(cè)評(píng)(LiveCodeBench)分?jǐn)?shù)和在大模型競(jìng)技場(chǎng)表現(xiàn)明明都很不錯(cuò)。
但到了各種第三方基準(zhǔn)測(cè)試中,情況大多直接逆轉(zhuǎn),排名末尾。
讓人不由得懷疑,這個(gè)競(jìng)技場(chǎng)排名到底是數(shù)據(jù)過(guò)擬合,還是刷票了。
就在 Llama 4 即將發(fā)布前幾天,Meta AI 研究主管 Joelle Pineau 在工作 8 年之后突然宣布離職,總之就是不太妙。
大模型關(guān)注者們火熱實(shí)測(cè)吐槽之際,一則有關(guān) Llama 4 的匿名爆料,突然引起軒然大波:
有網(wǎng)友稱自己已向 Meta GenAI 部門提交辭職,并要求不要署名在 Llama 4 的技術(shù)報(bào)告上。
原貼發(fā)布在海外留學(xué)求職交流平臺(tái)一畝三分地,在國(guó)內(nèi)也引起很多討論。
此爆料尚未得到證實(shí),但有人搬出 Meta GenAI 負(fù)責(zé)人 Ahmad Al-Dahle 的帖子,至少能看出在 Llama 4 大模型競(jìng)技場(chǎng)里運(yùn)行的是特殊版本模型。
還有 Meta 前員工借此話題貼出 2024 年 11 月的一項(xiàng)研究,指出從 Llama 1 開始數(shù)據(jù)泄露的問題就存在了。
也不只是編程能力一個(gè)方面有問題,在 EQBench 測(cè)評(píng)基準(zhǔn)的的長(zhǎng)文章寫作榜中,Llama 4 系列也直接墊底。
榜單維護(hù)者_(dá)sqrkl 說(shuō)明了具體情況。
測(cè)試非常簡(jiǎn)單,模型需要先完成一個(gè)短篇小說(shuō)的頭腦風(fēng)暴、反思并修改寫作計(jì)劃,最終每輪寫 1000 字,重復(fù) 8 輪以上。
由 Claude-Sonnet 3.7 來(lái)當(dāng)裁判,先對(duì)每個(gè)章節(jié)單獨(dú)打分,再對(duì)整個(gè)作品打分。
Llama 4 的低分表現(xiàn)在寫到后面開始大段的內(nèi)容重復(fù),以及寫作非常公式化。
對(duì)此結(jié)果,有一個(gè)猜想是之前的版權(quán)訴訟讓 Meta 刪除了網(wǎng)絡(luò)和書籍?dāng)?shù)據(jù),使用了更多的合成數(shù)據(jù)。
在這場(chǎng)訴訟中,許多作家發(fā)現(xiàn)自己的作品可能被用于 AI 訓(xùn)練,還到倫敦的 Meta 辦公室附近發(fā)起抗議。
Llama 4 發(fā)布后的種種,讓人聯(lián)想到年初的匿名員工爆料,有網(wǎng)友表示當(dāng)初只是隨便看看,現(xiàn)在卻開始相信了:
在這條爆料中,Deepseek V3 出來(lái)之后,訓(xùn)練中的 Llama4 就顯得落后了,中層管理的薪水都比 DeepSeek V3 的訓(xùn)練成本都高,Meta 內(nèi)部陷入恐慌模式。
讓人不由得感嘆,DeepSeek-R1 橫空出世僅僅兩個(gè)月時(shí)間,卻像過(guò)了幾輩子。
參考鏈接:
[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
[2]https://www.1point3acres.com/bbs/thread-1122600-1-1.html
[3]https://x.com/suchenzang/status/1909070231517143509
https://x.com/TheAhmadOsman/status/1908833792111906894
本文來(lái)自微信公眾號(hào):量子位(ID:QbitAI),作者:夢(mèng)晨,原標(biāo)題《Llama 4 發(fā)布 36 小時(shí)差評(píng)如潮!匿名員工爆料拒絕署名技術(shù)報(bào)告》
本文鏈接:http://www.tebozhan.com/showinfo-45-12086-0.htmlMeta Llama 4 發(fā)布 36 小時(shí)“差評(píng)如潮”,匿名員工爆料拒絕署名技術(shù)報(bào)告
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com