當前位置：首頁 > 元宇宙 > AI

Reflection 70B AI 模型“塌房”：第三方基準測試結果不佳，不如 LLaMA-3.1-70B

來源：責編：時間：2024-09-13 09:33:00 102觀看

導讀 9 月 11 日消息，科技媒體 The Decoder 昨日（9 月 10 日）報道，對比平臺 Artificial Analysis 相關數據表明，Reflection 70B AI 模型在基準測試中的表現，實際上不及 Meta 的 LLaMA-3.1-70B。針對 AI 模型基準測試結果

9 月 11 日消息，科技媒體 The Decoder 昨日（9 月 10 日）報道，對比平臺 Artificial Analysis 相關數據表明，Reflection 70B AI 模型在基準測試中的表現，實際上不及 Meta 的 LLaMA-3.1-70B。

針對 AI 模型基準測試結果不佳，Reflection 公司首席執行官馬特?舒默（Matt Shumer）表示，上傳模型權重至 Hugging Face 時遇到問題，所使用的權重是多個不同模型的混合體，而他們內部托管的模型則顯示出更佳的結果。

舒默隨后向部分用戶提供了獨家訪問內部模型的權限，Artificial Analysis 重做了測試，并報告結果優于公開 API，只是他們無法確認所訪問的具體是哪個模型。

Reflection 在 Hugging Face 已上傳了新的模型，不過這些模型在測試中的表現明顯遜于之前通過私有 API 提供的模型。

查詢公開資料，有用戶還發現了證據，表明 Reflection API 有時會調用 Anthropic Claude 3.5 Sonnet以及OpenAI。

舒默旗下公司 OthersideAI 此前已宣布計劃于本周發布一款基于 LLaMA 3.1 450B 的更大、更強大的模型。

舒默對這一即將發布的版本做出了大膽聲明，稱其不僅將成為最佳的開源模型，還將是有史以來最優秀的語言模型。

官方回應：

相關閱讀：

《開源大模型新王 Reflection 70B 超越 GPT-4o：新技術可糾正自己幻覺，數學 99.2 分刷爆測試集》

本文鏈接：http://www.tebozhan.com/showinfo-45-7147-0.htmlReflection 70B AI 模型“塌房”：第三方基準測試結果不佳，不如 LLaMA-3.1-70B

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：消息稱字節 AI 硬件團隊首款自研產品為智能耳機，與豆包大模型聯動

下一篇： AI 被連續否定 30 次：ChatGPT 越改越錯，Claude 堅持自我，甚至已讀不回

標簽：

熱門焦點

【東方證券】虛擬世界照進現實，元宇宙中有什么？ | 元宇宙Meta洞見

元宇宙的表現形式大多以游戲為起點，并逐漸整合互聯網、數字化娛樂、社交網絡等功能，長期來看甚至可以整合社會經濟與商業活動。元宇宙的發展最關鍵的部分在于元
避坑指南：遠離具有這些特性的NFT

關于NFT，在我們的文章中一直以來都是常駐嘉賓，不止因為NFT背后隱藏的潛力，更因為在這個NFT世界里冥冥之中仿佛有一雙幕后的手，OpenSea、庫里、ERC115、視覺中國、
超跑與NFT的首次結合，蘭博基尼能否破局？

蘭博基尼公司近日稱即將推出它的首款NFT，并且將加速進軍區塊鏈領域。這家聞名遐邇的意大利汽車廠商野心勃勃地將目光投向混合動力和電動跑車，并宣布將拍賣與瑞士
“啫喱”超越微信登頂：首款“元宇宙社交App”會曇花一現嗎？

作者| 赤木瓶子如何終結“曇花一現”的命運，是潮流社交產品的長期命題，如今，在元宇宙浪潮的洗禮下，這一命題正在迎來新的可能性。近段時間，一款名為“啫喱”的社交A
頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

一場被國際奧委會主席評價堪稱獨具匠心、非凡卓越的2022年北京冬季奧運會，在這個“雙奧之城”經歷了16個令人難忘的精彩日夜，最終圓滿閉幕。讓我們印象深刻的不
元宇宙是推動NFT發展的初始家園

現在大家都知道了什么是NFT，但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加，該如何將這些數字資產帶入我們的日常生活？NFT還是主流嗎？如果我們將“主流
Meta 呼吁行業合作建立元宇宙網絡基礎設施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基礎設施，以支持其蓬勃發展的元宇宙野心?！霸钪妗背蔀?2021 年的主要流行語之一，這在很大程度上是由 Facebo
趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

作者：五火球教主前不久，趙長鵬在《財富》雜志印度版塊刊登評論。他表示：“DeFi 在 2021 年出現了快速創新，我們可能會在 2022 年看到蓬勃發展的興趣和創新，其中 Soc
花旗集團前高管加入Provenance區塊鏈，擔任CEO

No.1 花旗集團前高管加入Provenance區塊鏈，擔任CEO3月1日消息，Provenance區塊鏈基金會已任命花旗集團前高管摩根·麥肯尼（Morgan McKenney）為新任首席執行官。麥肯

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Reflection 70B AI 模型“塌房”：第三方基準測試結果不佳，不如 LLaMA-3.1-70B

【東方證券】虛擬世界照進現實，元宇宙中有什么？ | 元宇宙Meta洞見

避坑指南：遠離具有這些特性的NFT

超跑與NFT的首次結合，蘭博基尼能否破局？

“啫喱”超越微信登頂：首款“元宇宙社交App”會曇花一現嗎？

頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

元宇宙是推動NFT發展的初始家園

Meta 呼吁行業合作建立元宇宙網絡基礎設施

趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

花旗集團前高管加入Provenance區塊鏈，擔任CEO

最新推薦

AI網紅能年賺百萬，普通人的新機會來了？

借VR產業東風，江西搶灘布局“元宇宙”

本周NFT領域重要資訊回顧

從4個方面解析2022年加密行業趨勢

頭像類NFTs的統治能持續多久？

虛擬偶像行業的商用價值逐漸凸顯，IP生態圈也逐漸成型

猜你喜歡

熱門推薦

相關資訊

Reflection 70B AI 模型“塌房”：第三方基準測試結果不佳，不如 LLaMA-3.1-70B

最新推薦

猜你喜歡

熱門推薦

相關資訊

Reflection 70B AI 模型“塌房”：第三方基準測試結果不佳，不如 LLaMA-3.1-70B