6 月 22 日消息,斯坦福大學基礎模型研究中心(CRFM)6 月 11 日發布了大規模多任務語言理解能力評估(Massive Multitask Language Understanding on HELM)排行榜,其中綜合排名前十的大語言模型中有兩款來自中國廠商,分別是阿里巴巴的 Qwen2 Instruct(72B)和零一萬物的 Yi Large(Preview)。
據悉大規模多任務語言理解能力評估(MMLU on HELM)采用了 Dan Hendrycks 等人提出的一種測試方法,用于衡量文本模型在多任務學習中的準確性。這個測試內容包括基礎數學、美國歷史、計算機科學、法律等領域的 57 個任務。要在這個測試中獲得高分,模型必須具備廣泛的世界知識和解決問題的能力。附排名如下:
1、Claude 3 Opus(20240229): Anthropic(美國,亞馬遜投資)
2、GPT-4o(2024-05-13):OpenAI(美國)
3、Gemini 1.5 Pro:谷歌(美國)
4、GPT-4(0613):OpenAI(美國)
5、Qwen2 Instruct(72B):阿里巴巴(中國)
6、GPT-4 Turbo(2024-04-09):OpenAI(美國)
7、Gemini 1.5 Pro(0409 preview):谷歌(美國)
8、GPT-4 Turbo(1106 preview):OpenAI(美國)
9、Llama 3(70B):Meta(美國)
10、Yi Large(Preview):零一萬物(中國)
Qwen2 是由阿里巴巴開發的一款開源大語言模型,發布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在內的五個不同規模的預訓練及指令微調模型;支持除英語和中文外的額外 27 種語言的數據訓練;Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持長 128K 個 token 的上下文。
Yi Large 是由零一萬物公司開發的一款閉源大模型,Yi 模型系列基于 6B 和 34B 預訓練語言模型,然后擴展到聊天模型、200K 長上下文模型、深度升級模型和視覺語言模型。官方宣稱“其在關鍵基準測試分數上優于 GPT-4 和 Claude 3 Opus 等領先模型”。
本文鏈接:http://www.tebozhan.com/showinfo-45-4773-0.html斯坦福大模型評測榜 Claude 3 排名第一,阿里 Qwen2、零一萬物 Yi Large 國產模型進入前十
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com