當前位置：首頁 > 元宇宙 > AI

大模型 2024 高考發榜，豆包等三款國產 AI 考上文科一本線

來源：責編：時間：2024-06-28 17:09:12 142觀看

導讀眼下，全國各地的高考成績陸續出爐，各種關于考生考了多少分的新聞也在不斷登上頭條。而最近，有一批特殊考生的成績也出爐了，他們就是由各家 AI 大模型組成的“考試天團”。大模型考上文科本科，豆包拿下國產 AI 最高

眼下，全國各地的高考成績陸續出爐，各種關于考生考了多少分的新聞也在不斷登上頭條。

而最近，有一批特殊考生的成績也出爐了，他們就是由各家 AI 大模型組成的“考試天團”。

大模型考上文科本科，豆包拿下國產 AI 最高分

6 月 24 日，在極客公園最新發布的高考新課標 Ⅰ 卷大模型評測報告中，GPT-4o 以 562 分排名文科總分第一。國內產品中，字節跳動旗下的豆包拔得頭籌，成績是 542.5 分。

再往后，依次是百度文心一言 4.0 的 537.5 分、百川智能“百小應”的 521 分。本次大模型高考評測與河南省考卷完全相同，河南高考錄取分數線顯示，文科本科一批錄取分數線為 521 分，豆包等三款國產 AI 成功沖上一本線。

我們知道，當前生成式 AI 大模型技術正處于商用普及的初期，小到每個人的工作、生活，大到千行百業的生產、創作，都在逐漸受到來自 AI 大模型技術的賦能。

但同時我們也應該看到，生成式 AI 尚處于發展初級階段，AI 是否足夠“聰明”，仍然是影響相關技術和產品體驗的基本要素。

所以，用高考題來測試 AI 大模型，確實不失為一個有趣又直觀的評判大模型能力的方式。

下面讓我們具體看看不同大模型在面對高考試卷時的表現。

語言能力是優勢，豆包大模型作文獲好評

具體來看這次高考卷大模型評測的詳細情況。首先，語文、英語的語言類考試，是大模型有能力和人類考生較量的賽場，多家產品能拿到客觀題目的滿分或接近滿分。

憑借中文語言的“主場優勢”，三款國產大模型產品獲得了語文考試前三名，分別是百小應、字節豆包和騰訊元寶，得分依次為 128 分、125.5 分和 120.5 分。除了少數開放性的閱讀理解和語言文字運用問題，各家大模型主要丟分在語文寫作上。

（圖自：極客公園）

作為本次評測的語文作文閱卷人，北京市級骨干教師、懷柔區語文學科帶頭人夏老師曾多次參加全國高考語文閱卷。

夏老師認為：“Al 寫出的文章大多有清晰完整的結構，有邏輯性，語言通順流暢。但其理性有余，感性不足，缺乏感情色彩，自然就缺乏感染力。”

不過這其中，豆包大模型的作文在匿名閱卷中，獲得閱卷老師的好評：

文章中顯出的對就業結構、倫理方面的擔心，展現出豆包已經具有不錯的思想深度和思辨能力。在立住“問題”后，豆包隨即用反問句自然過渡，引出三個排比段提出解決問題的方法 —— 保持“問題意識”。其中用發展的眼光分析問題，結合現實生活揭示問題產生的根源和危害的部分頗為亮點，并且整體上“結構嚴謹，層層推進，語句流暢，認識全面”。

英語寫作同樣是大模型的一大難題。本次評測默認所有大模型的聽力都獲得 30 分滿分。在閱讀和語言運用兩大項客觀問題的考試上，GPT-4o、百小應、通義千問獲得 80 分滿分，豆包和文心一言 4.0 也接近滿分。

但是在 40 分的寫作考試中，最高分只有 29 分，分別由 GPT-4o 和百小應獲得，各家模型的英語寫作主要丟分在表達空泛、缺少細節上。如果大模型在未來能夠提升寫作能力，獲得高考滿分并非難事。

在由歷史、地理、政治組成的新課標文綜考卷評測中，GPT-4o 獲得 237 分的成績，平均分達到 79 分，優于多數人類考生。國產大模型產品中，豆包的文綜成績最高，分數達到 224.5 分，其中歷史科目拿到 82.5 分，在所有 9 款大模型中得分第一。

政治考試中，GPT-4o 出人意料的獲得了 88 分的最高分，百小應和豆包得分超過 80。地理考卷則有大量圖片問題，對一眾大模型是不小的挑戰，圖像理解能力較強的 GPT-4o 得到最高分，但僅有 68 分。

河南高考分數段統計數據顯示，GPT-4o 的 562 分在文科考生中排名 8811 名，相當于人類考生的前 2.45%。而僅次于 GPT-4o、位列國產 AI 第一名的豆包大模型文科成績 542.5 分，超過文科一本線 20 分，處于前 4.27% 的位置。

由此可見，在過去一年多時間里，國產 AI 技術能力獲得了長足進步，目前已經接近國際頂尖大模型的水平。

理科考試成績有待提高，AI 并非全能

與人類頂尖考生相比，大模型在數學、物理、化學等數理學科上差距極大，包括 GPT-4o 在內的所有大模型都無法達到及格水平。盡管在語文、英語兩科上能獲得高分，大模型的理科最好成績還無法進入人類考生的前 30%。

以數學試卷為例，9 款大模型產品中，僅 GPT-4o、文心一言 4.0 和豆包獲得 60 分以上成績（滿分 150 分），目前的大模型只能正確推理步驟相對簡單的問題。

據測試機構透露，豆包等大模型能準確運用求導公式和三角函數定理，但是面對較為復雜的推導和證明問題就很難繼續得分。

重點考查實驗探究能力的化學和物理試卷，各模型平均分更是只有 34 分和 39 分（滿分為 100 和 110）。化學單項最高分由豆包獲得，成績為 49.5 分，GPT-4o 僅有 42 分。

大模型在應對考試的靈活性上也不如人類。例如物理有一道送分題，人類考生根據“時間不會倒流”可以排除錯誤選項，輕易選對正確答案“C”，大模型則幾乎全軍覆沒。

要學會像人類一樣思考和解決問題，大模型還有很長的路要走。

不過，據麥肯錫報告分析，大模型的價值創造潛力驚人，到 2030 年，有望在全球推動 49 萬億人民幣的經濟增量。

而目前，從技術創新到商業落地，大模型已經開始在為我們的日常工作生活和各行業的 AI 轉型提供動能。

雖然生成式 AI 目前確實還有不足，路漫漫其修遠，但相信在以豆包大模型為代表的眾多生成式 AI 技術和產品的共同發展和努力下，未來簡單的高考試卷對于它們來說將不再是挑戰，更廣泛的應用場景唱，給出更加完美的答卷。

本文鏈接：http://www.tebozhan.com/showinfo-45-4833-0.html大模型 2024 高考發榜，豆包等三款國產 AI 考上文科一本線

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：華為聯合清華大學發布《AI 終端白皮書》：生成式 AI 時代終端的未來路在何方？

下一篇：訊飛星火大模型 V4.0 發布會直播（視頻）

標簽：

熱門焦點

元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

來源：清元宇宙炎炎夏日努力工作的Q仔的電腦都冒煙兒啦～今天要給大家介紹兩個新小伙伴——小元和小媧，他們將給大家解讀元媧2.7版本重磅更新內容～大家掌聲歡迎～～～本次更
藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

日前，天下秀數字科技集團正式公布了2022年報及2023年一季報。報告顯示，2022年天下秀實現營收41.29億元，同比下滑8.48%；歸母凈利潤1.8億元，同比下滑49.2%，幾乎出現了盈利腰斬的態勢
冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

“兩日上漲千倍”并不存在，且冰墩墩NFT的市場熱度遠不及社交媒體所稱的那樣高。2月11日，獲得國際奧委會授權的2022冬奧會吉祥物冰墩墩相關NFT產品在nWayPlay上線
“虛擬人”角斗場，基于“硬實力”下的人性平衡法則？

在打工人“反內卷”的當下，一眾虛擬人卻“內卷”了起來。從北京春晚虛擬人蘇小妹與劉宇演繹歌舞《星河入夢》，央美畢業的虛擬人夏語冰登上央視節目《對話》，湖南
2022年最具關注的9個頭像NFT項目

什么是 PFP NFT 項目？PFP NFT （個人資料圖片NFT）是一組獨特的數字收藏品，人們用來在互聯網平臺上代表自己。這些數字藝術作品通常是一系列可作為頭像的角色，在 Twit
借VR產業東風，江西搶灘布局“元宇宙”

自2016年起就在VR上傾注了大量精力的江西省，迅速搭上了“元宇宙”。VR、AR等技術是通往元宇宙的關鍵接口，使人們可以在數字空間和物理空間自由穿梭。自2016年起
NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

Hayley Rincon是一位令人印象深刻才華橫溢的創作者，她的作品呈現出迷幻的氣息。今天就來聊聊她的藝術作品，和她自己的數字藝術之路。Hayley是加利福尼亞灣區的有
從4個方面解析2022年加密行業趨勢

作者：去月球基礎設施瓶頸仍然存在盡管2021年公鏈基礎設施之間的競爭顯著升溫，但關鍵瓶頸仍需解決。例如，以太坊作為DApp開發的頂級公鏈，仍然遭受網絡擁塞和高額交
NFT高玩必備：NFT分析工具大盤點

NFT市場的火熱讓越來越多的投資者投身其中，但當前的 NFT 生態系統存在幾個問題卻困擾了大多數人，如難以準確評估 NFT 項目的資產價格、缺乏 NFT 市場動態信息、

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

大模型 2024 高考發榜，豆包等三款國產 AI 考上文科一本線

元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

“虛擬人”角斗場，基于“硬實力”下的人性平衡法則？

2022年最具關注的9個頭像NFT項目

借VR產業東風，江西搶灘布局“元宇宙”

NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

從4個方面解析2022年加密行業趨勢

NFT高玩必備：NFT分析工具大盤點

最新推薦

藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

元宇宙火熱的當下，我們該如何“身臨其境”的體驗元宇宙？

中文在線的“元宇宙”故事，資本聽膩了？

Layer1的新以太坊，更好的以太坊？

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

索尼公布PSVR 2頭顯渲染圖；社區開發者發布Quest版《我的世界》

猜你喜歡

熱門推薦

相關資訊