當前位置：首頁 > 元宇宙 > AI

斯坦福大模型評測榜 Claude 3 排名第一，阿里 Qwen2、零一萬物 Yi Large 國產模型進入前十

來源：責編：時間：2024-06-25 17:11:53 151觀看

導讀 6 月 22 日消息，斯坦福大學基礎模型研究中心（CRFM）6 月 11 日發布了大規模多任務語言理解能力評估（Massive Multitask Language Understanding on HELM）排行榜，其中綜合排名前十的大語言模型中有兩款來自中國廠商，分

6 月 22 日消息，斯坦福大學基礎模型研究中心（CRFM）6 月 11 日發布了大規模多任務語言理解能力評估（Massive Multitask Language Understanding on HELM）排行榜，其中綜合排名前十的大語言模型中有兩款來自中國廠商，分別是阿里巴巴的 Qwen2 Instruct（72B）和零一萬物的 Yi Large（Preview）。

據悉大規模多任務語言理解能力評估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一種測試方法，用于衡量文本模型在多任務學習中的準確性。這個測試內容包括基礎數學、美國歷史、計算機科學、法律等領域的 57 個任務。要在這個測試中獲得高分，模型必須具備廣泛的世界知識和解決問題的能力。附排名如下：

▲ 圖源斯坦福大學基礎模型研究中心官網

1、Claude 3 Opus（20240229）： Anthropic（美國，亞馬遜投資）

2、GPT-4o（2024-05-13）：OpenAI（美國）

3、Gemini 1.5 Pro：谷歌（美國）

4、GPT-4（0613）：OpenAI（美國）

5、Qwen2 Instruct（72B）：阿里巴巴（中國）

6、GPT-4 Turbo（2024-04-09）：OpenAI（美國）

7、Gemini 1.5 Pro（0409 preview）：谷歌（美國）

8、GPT-4 Turbo（1106 preview）：OpenAI（美國）

9、Llama 3（70B）：Meta（美國）

10、Yi Large（Preview）：零一萬物（中國）

Qwen2 是由阿里巴巴開發的一款開源大語言模型，發布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在內的五個不同規模的預訓練及指令微調模型；支持除英語和中文外的額外 27 種語言的數據訓練；Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持長 128K 個 token 的上下文。

Yi Large 是由零一萬物公司開發的一款閉源大模型，Yi 模型系列基于 6B 和 34B 預訓練語言模型，然后擴展到聊天模型、200K 長上下文模型、深度升級模型和視覺語言模型。官方宣稱“其在關鍵基準測試分數上優于 GPT-4 和 Claude 3 Opus 等領先模型”。

本文鏈接：http://www.tebozhan.com/showinfo-45-4773-0.html斯坦福大模型評測榜 Claude 3 排名第一，阿里 Qwen2、零一萬物 Yi Large 國產模型進入前十

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： GPT-4o 差點沒及格！首個多任務長視頻評測基準，它有億點難

下一篇：消息稱蘋果與 Meta 討論合作，將生成式 AI 引入 Apple Intelligence

標簽：

熱門焦點

元宇宙里賣酸奶，好炸裂的操作！

作者 | 李東陽來源 | 首席營銷官有沒有發現，當下的熱搜出現一個有意思的現象，那就是“情懷”不知不覺成為了主流，爺青回話題討論性非常高。前有名偵探柯南和優衣庫
數字人的新革命，BAT的“沖高”戰場

來源：劉曠ChatGPT橫空出世，讓人們看到了數字人的另一種可能，將ChatGPT與虛擬數字人融合，研發出更加智能化、擬人化的虛擬數字人成為數字人廠商的新命題、新方向。2月份，嶺南股份
“任何國產元宇宙都是假元宇宙”

上個月，華語樂壇的優質偶像之一，DOTA2資深玩家林俊杰，在國外元宇宙產品分布式大陸(Decentraland)上買了三塊虛擬地產，花了12.3萬美元（也就是人民幣接近80萬）。截至目
現在的元宇宙：一款低配版的科幻游戲

在2021年的歲末之際，不禁感嘆元宇宙元年之熱鬧，從元宇宙NFT頭像，到元宇宙數字地產，再到元宇宙旅游景區等等，仿佛科幻感十足的元宇宙眨眼間就從人們的概念認知中完全
如何對一款 NFT 項目進行價值評估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企業家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導 Web3 和 NFT 領域的企業家，因為我相信我們正在見證社會
萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎層

Vitalik Buterin 在 19 歲時撰寫了以太坊白皮書。他的目標簡單而全面，即創建一個“世界計算機”，旨在成為所有在線應用程序的靈活基礎層，無需任何第三方。自 2015
“元宇宙第一股”Roblox緣何被資本市場看“低”？

近期，冬奧會的召開受到廣泛關注，而吉祥物冰墩墩也成為新晉“頂流”，“一墩難求”成為普遍心聲，為了滿足大眾需求，nWayPlay平臺曾在2月12日發售了一款由國際奧委會官
NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

引言：NFT Insider由WHALE社區、BeepCrypto聯合出品，濃縮每周NFT新聞，為大家帶來關于NFT最全面、最新鮮、最有價值的訊息。每期周報將從NFT市場數據，藝術新聞類，游戲
下一個黃金賽道？NFT的碎片化!

碎片化可能是我們一生中最重要的一個投資趨勢，碎片化本身并不新鮮。它已經存在了400年之久。早在1602年，荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

斯坦福大模型評測榜 Claude 3 排名第一，阿里 Qwen2、零一萬物 Yi Large 國產模型進入前十

元宇宙里賣酸奶，好炸裂的操作！

數字人的新革命，BAT的“沖高”戰場

“任何國產元宇宙都是假元宇宙”

現在的元宇宙：一款低配版的科幻游戲

如何對一款 NFT 項目進行價值評估？

萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎層

“元宇宙第一股”Roblox緣何被資本市場看“低”？

NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

下一個黃金賽道？NFT的碎片化!

最新推薦

元宇宙的文旅賽道，還能如何發力？

風口已至，多領域平臺融入社交元素！

以太坊升級將會帶來的5個改變

虛擬數字人：元宇宙的主角破圈而來

Kitten Coup社區反轉Cool Kittens NFT騙局

GameFi 深度解析，元宇宙內容雛形顯現

猜你喜歡

熱門推薦

相關資訊