當前位置：首頁 > 元宇宙 > AI

上海人工智能實驗室發布首個 AI 高考評測結果：語數英總分最高 303 分，數學全部不及格

來源：責編：時間：2024-06-22 16:27:51 136觀看

導讀 6 月 20 日消息，上海人工智能實驗室 19 日公布了首個 AI 高考全卷評測結果。據介紹，2024 年全國高考甫一結束，該實驗室旗下司南評測體系 OpenCompass 選取 6 個開源模型及 GPT-4o 進行高考“語數外”全卷能力測

6 月 20 日消息，上海人工智能實驗室 19 日公布了首個 AI 高考全卷評測結果。據介紹，2024 年全國高考甫一結束，該實驗室旗下司南評測體系 OpenCompass 選取 6 個開源模型及 GPT-4o 進行高考“語數外”全卷能力測試。

評測采用全國新課標 I 卷，參與評測的所有開源模型開源時間均早于高考，確保評測“閉卷”性。同時，成績由具有高考評卷經驗的教師人工評判，更加接近真實閱卷標準。

該機構表示，Qwen2-72B、GPT-4o 及書生?浦語 2.0 文曲星（InternLM2-20B-WQX）成為本次大模型高考的前三甲，得分率均超過 70%。大部分模型“考生”語文、英語科目表現良好，但數學方面仍有很大提升空間。

具體來看，InternLM2-20B-WQX 取得了數學單科的最高分，超越包括 GPT-4o 在內的所有模型。

注：此次參與“大模型高考”評測的產品包含 GPT-4o 及其他 6 個模型。為公平起見，此次評測沒有納入商用閉源模型。

Mixtral 8x22B：法國 AI 創業公司 Mistral 于 2024 年 4 月 17 日開源的對話模型。

Yi-1.5-34B：零一萬物公司于 2024 年 5 月 12 日開源的 Yi-1.5 系列最大的模型。

GLM-4-9B：智譜 AI 于 2024 年 6 月 4 日推出的最新一代預訓練模型 GLM-4 系列的開源版本。

InternLM2-20B-WQX：上海人工智能實驗室于 2024 年 6 月 4 日開源的書生?浦語 2.0 系列文曲星大語言模型。

Qwen2-57B：阿里巴巴于 2024 年 6 月 6 日開源的 Qwen2 系列 MoE 對話模型。

Qwen2-72B：阿里巴巴于 2024 年 6 月 6 日開源的 72B 稠密模型。

語數外三科加起來的滿分為 420 分，此次高考測試結果顯示，阿里通義千問 2-72B 排名第一，為 303 分，OpenAI 的 GPT-4o 排名第二，得分 296 分，上海人工智能實驗室的書生?浦語 2.0 排名第三，三個大模型的得分率均超過 70%。來自法國大模型初創公司的 Mistral 排名末尾，僅拿下 185 分。

數學是所有大模型的短板，平均得分率僅有 36%，參與測試的大模型無一及格。

此外，閱卷教師也對大模型表現進行了整體分析，為模型能力提升策略提供參考。

語文

模型的現代文閱讀理解能力普遍較強，但是不同模型的文言文閱讀理解能力差距較大。

大模型作文更像問答題，雖然有針對性但缺乏修飾，幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物素材等手法。

多數模型無法理解“本體”“喻體”“暗喻”等語文概念。語言中的一些“潛臺詞”，大模型尚無法完全理解。

數學

大模型的主觀題回答相對凌亂，且過程具有迷惑性，甚至出現過程錯誤但得到正確答案的情況。

大模型的公式記憶能力較強，但是無法在解題過程中靈活引用。

英語

英語整體表現良好，但部分模型由于不適應題型，在七選五、完形填空等題型得分率較低。

大模型英語作文普遍存在因超出字數限制而扣分的情況，而人類考生多因為字數不夠扣分。

本文鏈接：http://www.tebozhan.com/showinfo-45-4723-0.html上海人工智能實驗室發布首個 AI 高考評測結果：語數英總分最高 303 分，數學全部不及格

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： B站開源輕量級 Index-1.9B 系列模型：2.8T 訓練數據，支持角色扮演

下一篇：振興鄉村發展助力青少年教育中國三星連續十一年蟬聯企業社會責任榜外企第一

標簽：

熱門焦點

這場虛擬人爭奪戰，互聯網巨頭下場先贏一半？

撰文/ 孟會緣近兩年間，要論引得無數互聯網巨頭競折腰的一大熱門產業，莫過于元宇宙領域中的數字人了。作為繼數字藏品之后，開發元宇宙的又一重點落地項目，互聯網
企業熱、用戶冷，元宇宙第一站將是“營銷場”？

如果說2021年底什么最火熱，那元宇宙當之無愧。“萬物皆可元宇宙”似乎成為新的流行語，在廣告中也常常聽到“社交元宇宙”“購物元宇宙”等等。就在近日，有消息傳
“虛擬人”角斗場，基于“硬實力”下的人性平衡法則？

在打工人“反內卷”的當下，一眾虛擬人卻“內卷”了起來。從北京春晚虛擬人蘇小妹與劉宇演繹歌舞《星河入夢》，央美畢業的虛擬人夏語冰登上央視節目《對話》，湖南
從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

對于大部分年輕人來說，剛剛過去的春節有一個詞語突然成為了品牌宣傳的流行語，作為從NFT中衍生出來的“數字藏品”一時間獲得了不少品牌青睞，他們紛紛推出自己的數
Kitten Coup社區反轉Cool Kittens NFT騙局

當狂熱的加密愛好者將金錢投入到NFT圖片時，渾水摸魚的騙局隨之而來，Cool Kittens NFT便是其中一個作惡者，該項目于去年11月在Sonala鏈上啟動小貓形象的NFT鑄造及
Terra鏈上TVL躍升至第二

據DefiLlama數據顯示，當前,Terra鏈上應用鎖倉的加密資產價值（TVL）為172.1億美元，在公鏈板塊中已躍升至第二，超越了幣安智能鏈TVL的118億美元，TVL排名居首的仍為以太
新聞業在元宇宙的現狀和未來

“美聯社有毛病吧，這真的過分了！”，一位媒體編輯在推特中憤怒地表示。這是針對一款視頻NFT的批評言論之一，之后取消了此次銷售，因為該視頻呈現了移民穿越地中海的苦
MR——元宇宙平臺的下一代入口

作為“元宇宙”的領頭羊，Meta的一舉一動都受到業內的高度關注。華爾街見聞提及，2月17日周四，Facebook母公司Meta在透露，其混合現實技術（MR）將在幾年后實現，讓人們對元
這場虛擬發布會，當面“造假”！

英偉達去年4月份那場發布會，你曾看出什么不對勁的地方嗎？你品，你細品——在計算機圖形學頂會SIGGRAPH 2021上，英偉達通過一部紀錄片自曝：那場發布會內藏玄機~你看到

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

上海人工智能實驗室發布首個 AI 高考評測結果：語數英總分最高 303 分，數學全部不及格

這場虛擬人爭奪戰，互聯網巨頭下場先贏一半？

企業熱、用戶冷，元宇宙第一站將是“營銷場”？

“虛擬人”角斗場，基于“硬實力”下的人性平衡法則？

從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

Kitten Coup社區反轉Cool Kittens NFT騙局

Terra鏈上TVL躍升至第二

新聞業在元宇宙的現狀和未來

MR——元宇宙平臺的下一代入口

這場虛擬發布會，當面“造假”！

最新推薦

在元宇宙賣酸奶，這波聯動燃爆了！

保時捷推出虛擬超跑，車企元宇宙營銷這么香？

網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

中國區塊鏈產業生態地圖報告（2021）

用戶可以把自己的醫療健康數據做成NFT出售給醫藥公司掙錢

NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣，究竟有何潛力？

猜你喜歡

熱門推薦

相關資訊