當前位置：首頁 > 元宇宙 > AI

通義千問、GPT-4o 等七款大模型“高考”成績揭曉：前三名文科破一本線，理科躍二本線

來源：責編：時間：2024-07-19 07:54:23 107觀看

導讀7月18日消息，近日，上海人工智能實驗室揭曉了一場特殊的“高考”成績，這場考試與眾不同，因為它的參考者并非真實的學生，而是7個頂尖的AI大模型。這一評測的初衷在于探索當前大模型的真實能力水平，并尋找其可能存在的問題，以期

7月18日消息，近日，上海人工智能實驗室揭曉了一場特殊的“高考”成績，這場考試與眾不同，因為它的參考者并非真實的學生，而是7個頂尖的AI大模型。這一評測的初衷在于探索當前大模型的真實能力水平，并尋找其可能存在的問題，以期推動技術的進步。

據評測結果，書生?浦語 2.0 系列文曲星大模型(浦語文曲星)、阿里通義千問大模型 Qwen2-72B 和廣為人知的 GPT-4o在眾多模型中脫穎而出，分別在文科和理科的評測中位列前三。這三款大模型的文、理科成績均超越了“一本”和“二本”的分數線，這一參考線是基于今年高考人數最多的河南省的分數線設定的。

此次參與評測的大模型除了上述三款外，還包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及來自法國AI初創公司Mistral的Mixtral8×22B。整個評測過程嚴謹而全面，不僅進行了全卷的評分，還特意邀請了有高考閱卷經驗的老師進行打分，以確保評分的公正性和準確性。

在這場特殊的“高考”中，Qwen2-72B以546分的高分奪得了文科狀元的桂冠，而浦語文曲星則以468.5分領跑理科。與此同時，GPT-4o在文理科均展現出不俗的實力。不過，國外的大模型Mixtral8x22B在此次評測中表現相對較弱。

閱卷老師們在對答案進行仔細分析后指出，雖然大模型在基礎知識的掌握上表現出色，但與真實考生相比，在邏輯推理和知識靈活應用上還存在明顯差距。特別是在解答主觀題時，大模型往往難以完整理解題目要求，導致答案與題目要求不符。在數學題的解答過程中，大模型的表現也顯得機械且邏輯性不強。

根據上海人工智能實驗室上個月公布的 AI 高考全卷結果，Qwen2-72B、GPT-4o 及書生?浦語 2.0文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲，得分率均超過70%。大部分模型“考生”語文、英語科目表現良好，但數學方面仍有很大提升空間。

本文鏈接：http://www.tebozhan.com/showinfo-45-6035-0.html通義千問、GPT-4o 等七款大模型“高考”成績揭曉：前三名文科破一本線，理科躍二本線

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： 3萬多三星員工無限期全面罷工，SSD等存儲設備價格面臨上調

下一篇：專為iPad而生，蘋果高管闡述iPadOS 18計算器應用創新思路

標簽：

熱門焦點

數字虛擬人23年最新變化！

作者：小資來源：米塔之家自2021年元宇宙“爆炸”后，作為現實世界連接元宇宙的媒介之一，大批虛擬人跑步入場。到了2022年底，據天眼查數據顯示，我國目前企業名稱或經營范圍
元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

來源：首席品牌官從被稱為“元宇宙元年”的2021年開始，幾乎所有品牌都在迫不及待地“入駐”元宇宙。而一提及品牌們的元宇宙玩法，相信多數人腦海里首先浮現
藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

日前，天下秀數字科技集團正式公布了2022年報及2023年一季報。報告顯示，2022年天下秀實現營收41.29億元，同比下滑8.48%；歸母凈利潤1.8億元，同比下滑49.2%，幾乎出現了盈利腰斬的態勢
區塊鏈產業人才發展報告

工業和信息化部作為工業和信息化行業主管部門，正在著力推進“兩個強國”建設，加快推動以區塊鏈為代表的新興技術與實體經濟深度融合。我國區塊鏈技術和應用想要
國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

作者：楊鄭君2月16日，迅雷鏈企業數字藏品服務平臺正式上線，繼阿里、騰訊、京東、百度、網易等之后，又一家互聯網企業正式加入到火熱的數字藏品平臺的競爭中。除互聯
a16z：元宇宙辦公會取代實體辦公室嗎？

6位不同的專家對未來的工作發表看法----元宇宙--沉浸式的、基于區塊鏈的虛擬世界，大多數日?；顒幼罱K會在這里發生--但仍然只是一個概念。但它是一個擁有寶貴不
初探元宇宙

2021年可以被稱為“元宇宙”元年。繼2021年3月沙盒游戲平臺Roblox將“元宇宙”概念放入招股書中，被稱為“元宇宙”第一股后，Facebook更名為Meta, 引發全球范圍內
虛擬偶像行業的商用價值逐漸凸顯，IP生態圈也逐漸成型

六月的第一個周六，一場虛擬偶像七海Nana7mi的個人3D演唱會在萬代南夢宮上海文化中心舉行，相較于洛天依、百大UP主泠鳶yousa等，這位虛擬Up主在B站上的粉絲數43.6萬
超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

在2021年《福布斯》區塊鏈50強榜單中，29家企業使用Hyperledger超級賬本技術，占比近60%。同年，研究機構Blockdata發布了的調查報告顯示，訪問Top100上市公司中，有 81

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

通義千問、GPT-4o 等七款大模型“高考”成績揭曉：前三名文科破一本線，理科躍二本線

數字虛擬人23年最新變化！

元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

區塊鏈產業人才發展報告

國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

a16z：元宇宙辦公會取代實體辦公室嗎？

初探元宇宙

虛擬偶像行業的商用價值逐漸凸顯，IP生態圈也逐漸成型

超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

最新推薦

清華、北大等86所高校布局元宇宙，是風口還是噱頭？

錯過了BRC20還有eths,eth銘文協議

元宇宙風口下，視覺中國如何重估？

冰墩墩還能火多久？

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

NFT行業周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

猜你喜歡

熱門推薦

相關資訊

通義千問、GPT-4o 等七款大模型“高考”成績揭曉：前三名文科破一本線，理科躍二本線

最新推薦

猜你喜歡

熱門推薦

相關資訊

通義千問、GPT-4o 等七款大模型“高考”成績揭曉：前三名文科破一本線，理科躍二本線