當前位置：首頁 > 元宇宙 > AI

“最強開源模型”Reflection 被打假，英偉達科學家稱現有測試基準已不靠譜

來源：責編：時間：2024-09-16 15:10:29 103觀看

導讀小型創業團隊打造的“最強開源模型”，發布才一周就被質疑造假 ——不僅官方宣稱的成績在第三方測試中大打折扣，模型還被質疑套殼 Claude。面對浩大的聲浪，廠商 CEO 終于發文道歉，但并未承認造假，表示在調查有關原

小型創業團隊打造的“最強開源模型”，發布才一周就被質疑造假 ——

不僅官方宣稱的成績在第三方測試中大打折扣，模型還被質疑套殼 Claude。

面對浩大的聲浪，廠商 CEO 終于發文道歉，但并未承認造假，表示在調查有關原因。

被指控造假的，就是宣稱“干翻 GPT-4o”的 70B 開源大模型 Reflection。

一開始的質疑主要關于測試成績，官方找了上傳版本有誤等借口試圖“蒙混過關”。

但后來又出現了套殼 Claude 這一更重磅的指控，讓 Reflection 更加百口莫辯。

表現不如宣傳，還被質疑套殼

Reflection 是一個 70B 的開源模型，按照廠商的說法，它一下子把 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 這一系列先進模型全都超過了。

但 Reflection 剛發布兩天，第三方獨立測評機構 Artificial Analysis 就表示官方發布的測試成績無法復現。

在 MMLU、GPQA 和 MATH 上，Reflection 的成績和 Llama3 70B 一樣，連 Llama 3.1-70B 都比不過，更不用說 405B 了。

對此官方辯稱是，Hugging Face 上發布的版本有誤，將會重新上傳，但之后就沒了下文。

不過官方同時也表示，會給測評人員提供模型 API，然后 Reflection 的成績果真有了增長，但在 GPQA 上仍然不敵 Claude 3.5 Sonnet。

蹊蹺的是，Artificial Analysis 后來刪除了二次測試相關的帖子，目前還能看到的只有轉發后留下的一些痕跡。

除了成績有爭議，還有人對 Reflection 中的各層進行了分析，認為它是由 Llama 3 經過 LoRA 改造而來，而不是官方所聲稱的 Llama 3.1。

在 Hugging Face 上，Reflection 的 JSON 文件中也顯示是 Llama 3 而非 3.1。

官方的解釋仍然是說 HF 上的版本有問題。

還有另一個質疑的點是，Reflection 實際上是套殼 Claude，相關證據體現在多個方面。

一是在某些問題上，Reflection 與 Claude 3.5-Sonnet 的輸出完全一致。

第二個更加直接，如果直接詢問它的身份，Reflection 會說自己是 Meta 打造的，但一旦讓它“忘記前面的（系統）提示”，就立馬改口說自己是 Claude。

第三個發現則更加詭異 ——Reflection 遇到“Claude”一詞會將其自動過濾。

對此，Reflection 合成數據供應商 Glaive AI 的創始人 Sahil Chaudhary 進行了回應，表示沒有套殼任何模型，目前正在整理能夠證明其說法的證據，以及人們為什么會發現這種現象的解釋。

而關于一開始的測試成績問題，Chaudhary 則表示正在調查原因，弄清這兩件事后會發布報告進行說明。

Reflection 這邊最新的動態是 CEO 發布了一則道歉聲明，不過沒有承認造假，依然是說正在進行調查。

不過對于這一套解釋，有很多人都不買賬。

比如曾經發布多條推文質疑這位叫做 Boson 的網友，就在 Chaudhary 的評論區表示，“要么你在說謊，要么是 Shumer，或者你倆都在說謊”。

還有給 Reflection 提供托管服務的 Hyperbolic 平臺 CTO Yuchen Jin，講述了其與 Reflection 之間發生的許多事情。

托管平臺 CTO 講述幕后細節

在 Reflection 發布之前的 9 月 3 號，Shumer 就找到了 Hyperbolic，介紹了 Reflection 的情況并希望 Hyperbolic 能幫忙托管。

基于 Hyperbolic 一直以來對開源模型的支持，加上 Reflection 聲稱的表現確實優異，Hyperbolic 同意了這一請求。

9 月 5 號，Reflection 正式上線，Hyperbolic 從 Hugging Face 下載并測試了該模型，但并沒有看到標簽，于是 Jin 給 Shumer 發了私信。

后來，Jin 看到 Shumer 的推文說 HF 上的版本有些問題，所以繼續等待，直到 6 號早晨收到了 Chaudhary 的一條私信，表示 Reflection-70B 權重已重新上傳并可以部署。

看到和標簽按預期出現后，Hyperbolic 上線了 Reflection。

后來，Hyperbolic 上的模型就出現了成績與 Reflection 宣傳不符的情況，Shumer 認為這是 Hyperbolic 的 API 出現了問題。

不過，Reflection 這邊再次上傳了新版本，Hyperbolic 也重新托管，但 Jin 與 Artificial Analysis 溝通后發現，新版本的表現依舊差強人意。

Shumer 繼續表示，Reflection 還有個原始權重，也就是內部測試使用的版本，如果需要可以提供給 Hyperbolic。

但 Jin 沒有同意這一要求，因為 Hyperbolic 只為開源模型提供托管服務，之后不斷詢問 Shumer 原始權重何時發布，但遲遲未得到回應。

最終，Jin 認為應該下線 Reflection 的 API 并收回已分配的 GPU 資源。

這件事情讓我的感情受到了傷害，我們在這件事上花費了很多時間和精力。

但經過反思后，我并不后悔當初的托管決定，這幫助社區更快地發現問題。

大模型怎么測試才靠譜？

暫且拋開 Llama 版本和套殼的問題，單說關于測試成績的問題，反映了當前的 Benchmark 已經體現出了一些不足之處。

英偉達高級科學家 Jim Fan 就表示，模型在現有的一些測試集上造假簡直不要太容易。

Jim 還特別點名了 MMLU 和 HumanEval，表示這兩項標準“已被嚴重破壞”。

另外，Reflection 在 GSM8K 上取得了 99.2 分的成績，就算這個分數沒有水分，也說明測試基準到了該換的時候了。

Jim 表示，現在自己只相信 Scale AI 等獨立第三方測評，或者 lmsys 這樣由用戶投票的榜單。

但評論區有人說，lmsys 實際上也可以被操縱，所以（可信的）第三方評估可能才是目前最好的測評方式。

參考鏈接：

[1]https://venturebeat.com/ai/reflection-70b-model-maker-breaks-silence-amid-fraud-accusations/

[2]https://x.com/ArtificialAnlys/status/1832505338991395131

[3]https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/

[4]https://www.reddit.com/r/LocalLLaMA/comments/1fc98fu/confirmed_reflection_70bs_official_api_is_sonnet/

[5]https://x.com/shinboson/status/1832933747529834747

[6]https://x.com/Yuchenj_UW/status/1833627813552992722

[7]https://twitter.com/DrJimFan/status/1833160432833716715

本文來自微信公眾號：量子位（ID：QbitAI），作者：克雷西，原標題：《“最強開源模型”被打假，CEO 下場致歉，英偉達科學家：現有測試基準已經不靠譜了》

本文鏈接：http://www.tebozhan.com/showinfo-45-7296-0.html“最強開源模型”Reflection 被打假，英偉達科學家稱現有測試基準已不靠譜

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：美團買藥聯合銀河通用，展出全球首個人形機器人智慧藥房解決方案

下一篇：快手：可靈 AI 已累計生成超 2700 萬個視頻，正內測全新 1.5 版本基礎模型

標簽：

熱門焦點

游戲玩家才是最“元宇宙”的

01元宇宙的概念，最早由科幻作家尼爾·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一個脫胎于現實世界，又與現實世界平行、相互影響，并且始終在線的虛擬世
“任何國產元宇宙都是假元宇宙”

上個月，華語樂壇的優質偶像之一，DOTA2資深玩家林俊杰，在國外元宇宙產品分布式大陸(Decentraland)上買了三塊虛擬地產，花了12.3萬美元（也就是人民幣接近80萬）。截至目
中文在線的“元宇宙”故事，資本聽膩了？

被譽為“元宇宙”龍頭之一的中文在線，這下尷尬了。2022年1月11日，中國移動通信聯合會元宇宙產業委員會揭牌，接納涉足“元宇宙”的8家上市公司，包括中青寶、天下秀
2022 區塊鏈 50 強榜單；垃圾NFT項目的十三個特性

本期關鍵字TerraZero在Decentraland完成元宇宙住房抵押貸款；騰訊發行齊白石畫作數字藏品；Ripple成為數字歐元協會成員；Gem上線稀有度排名功能；2022 區塊鏈 50 強榜
避坑指南：遠離具有這些特性的NFT

關于NFT，在我們的文章中一直以來都是常駐嘉賓，不止因為NFT背后隱藏的潛力，更因為在這個NFT世界里冥冥之中仿佛有一雙幕后的手，OpenSea、庫里、ERC115、視覺中國、
元宇宙社交啫喱、希壤爆款迭出，騰訊慌了嗎？

文 | 陳橋輝沒想到騰訊超級QQ秀的20周年歸來首秀，被一款名不見經傳的產品搶了風頭。1月15日，一款名為“啫喱”的社交App迅速在各個互聯網的社交圈內火爆起來，引起
元宇宙“概念股”集體崩塌，背后究竟發生了什么？

近期，Roblox和Meta公布了第四季度的財務報告，在財報發布一日后，股價大跌。作為市值一度超過1萬億美元的世界第六大公司Meta，股價大跌4%，市值降至5650億美元，甚至跌出
虛擬數字人：元宇宙的主角破圈而來

虛擬數字人市場逐步進入成熟期，商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破，制
NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

引言：NFT Insider由WHALE社區、BeepCrypto聯合出品，濃縮每周NFT新聞，為大家帶來關于NFT最全面、最新鮮、最有價值的訊息。每期周報將從NFT市場數據，藝術新聞類，游戲

猜你喜歡

SQL Error: select * from ***_ecms_news13 where id in(167,68,,53,197,186) limit 6

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

“最強開源模型”Reflection 被打假，英偉達科學家稱現有測試基準已不靠譜

游戲玩家才是最“元宇宙”的

“任何國產元宇宙都是假元宇宙”

中文在線的“元宇宙”故事，資本聽膩了？

2022 區塊鏈 50 強榜單；垃圾NFT項目的十三個特性

避坑指南：遠離具有這些特性的NFT

元宇宙社交啫喱、希壤爆款迭出，騰訊慌了嗎？

元宇宙“概念股”集體崩塌，背后究竟發生了什么？

虛擬數字人：元宇宙的主角破圈而來

NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

最新推薦

VR/AR迷失元宇宙“硝煙”

從科幻走進現實，元宇宙概念逐漸清晰

2022年最具關注的9個頭像NFT項目

元宇宙“概念股”集體崩塌，背后究竟發生了什么？

「國產良心」NFT嘲諷了誰？

NFT：新騙局的狩獵場

猜你喜歡

熱門推薦

相關資訊