當前位置：首頁 > 科技 > 網絡

首個AI高考全卷評測結果發布：高分303 數學全不及格

來源：責編：時間：2024-06-20 08:57:00 161觀看

導讀快科技6月19日消息，據媒體報道，上海人工智能實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考“語數外”全卷能力測試。OpenCompass發布了首個大模型高考全卷評測結果。在滿分420分的三

快科技6月19日消息，據媒體報道，上海人工智能實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考“語數外”全卷能力測試。OpenCompass發布了首個大模型高考全卷評測結果。

在滿分420分的三科測試中，阿里通義千問2-72B以303分的成績拔得頭籌，緊隨其后的是OpenAI的GPT-4o，獲得296分，而上海人工智能實驗室的書生·浦語2.0位列第三。

這三大模型的得分率均超過了70%，展現了不俗的實力。相比之下，來自法國大模型初創公司的Mistral則排名末尾。

參與此次評測的模型來源廣泛，包括阿里巴巴、零一萬物、智譜AI、上海人工智能實驗室、法國Mistral的開源模型，以及OpenAI的閉源模型GPT-4o。

首個AI高考全卷評測結果發布：高分303 數學全不及格

為確保公平，實驗室特別指出，由于無法確定閉源模型的更新時間，評測中僅將GPT-4o作為參考，并未納入商用閉源模型。同時，所有參與評測的模型均在高考前（2024年4月-6月）開源，有效避免了“刷題風險”。

從評測結果來看，大模型在語文和英語方面的表現普遍較好，但在數學方面則普遍不及格。高分僅為75分，由書生·浦語2.0獲得，緊隨其后的是GPT-4o的73分。語文方面，通義千問表現出色，而英語則由GPT-4o領跑。

數學成績的不理想凸顯出大模型在復雜推理能力方面的不足。這一能力是金融、工業等要求可靠場景落地所需的關鍵能力，也是大模型未來發展的重要方向。

首個AI高考全卷評測結果發布：高分303 數學全不及格

本文鏈接：http://www.tebozhan.com/showinfo-17-94947-0.html首個AI高考全卷評測結果發布：高分303 數學全不及格

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：桂林暴雨部分城區街道變成威尼斯有市民劃船出行

下一篇：全球五大電商公司公布：中國獨占三席

標簽：

熱門焦點

K60至尊版狂暴引擎2.0加持：超177萬跑分斬獲性能第一

Redmi的后性能時代戰略發布會今天下午如期舉辦，在本次發布會上，Redmi公布了多項關于和聯發科的深度合作，以及新機K60 Ultra在軟件和硬件方面的特性，例如：“K60 至尊版，雙芯旗艦
iPhone賣不動了！蘋果股價創年內最大日跌幅：市值一夜蒸發萬億元

8月5日消息，今天凌晨美股三大指數高開低走集體收跌，道指跌0.41%；納指跌0.36%；標普500指數跌0.52%。熱門科技股也都變化極大，其中蘋果報181.99美元，跌4.8%，創
跑分安卓第一！Redmi K60至尊版8月發布！盧偉冰：目標年度性能之王

8月5日消息，Redmi K60至尊版將于8月發布，在此前舉行的戰略發布會上，官方該機將搭載搭載天璣9200+處理器，安兔兔V10跑分超177萬分，是目前安卓陣營最高的分數
8月總票房已突破10億！《封神》第一：口碑已經成了

8月5日消息，據燈塔專業版數據，截至8月5日9時35分，8月總票房（含預售）已突破10億。其中，《封神》以大比分的優勢領先。根據官方消息，目前該片總票房已經超過14.
得物效率前端微應用推進過程與思考

一、背景效率工程隨著業務的發展，組織規模的擴大，越來越多的企業開始意識到協作效率對于企業團隊的重要性，甚至是決定其在某個行業競爭中突圍的關鍵，是企業長久生存的根本。得物
2023年，我眼中的字節跳動

此時此刻（2023年7月），字節跳動從未上市，也從未公布過任何官方的上市計劃；但是這并不妨礙它成為中國最受關注的互聯網公司之一。從2016-17年的抖音強勢崛起，到2018年的“頭騰
2納米決戰2025

集微網報道從三強爭霸到四雄逐鹿，2nm的廝殺聲已然隱約傳來。無論是老牌勁旅臺積電、三星，還是誓言重回先進制程領先地位的英特爾，甚至初成立不久的新
iQOO Neo8系列新品發布會

旗艦雙芯更強更Pro
英特爾Xe HPG游戲顯卡：擁有512EU，單風扇版本

據10 月 30 日外媒 TheVerge 消息報道，英特爾 Xe HPG Arc Alchemist 的正面實被曝光，不僅擁有 512 EU 版顯卡，還擁有 128EU 的單風扇版本。另外，這款顯卡 PCB

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首個AI高考全卷評測結果發布：高分303 數學全不及格

K60至尊版狂暴引擎2.0加持：超177萬跑分斬獲性能第一

iPhone賣不動了！蘋果股價創年內最大日跌幅：市值一夜蒸發萬億元

跑分安卓第一！Redmi K60至尊版8月發布！盧偉冰：目標年度性能之王

8月總票房已突破10億！《封神》第一：口碑已經成了

得物效率前端微應用推進過程與思考

2023年，我眼中的字節跳動

2納米決戰2025

iQOO Neo8系列新品發布會

英特爾Xe HPG游戲顯卡：擁有512EU，單風扇版本

最新推薦

猜你喜歡

熱門推薦

相關資訊