當前位置：首頁 > 科技 > 資訊

AI大模型挑戰高考：豆包等三款國產大模型突破文科一本線數理學科仍需提升

來源：責編：時間：2024-06-29 08:00:23 148觀看

導讀&emsp;&emsp;當大模型化身考生參加高考，究竟會獲得怎樣的成績？&emsp;&emsp;6月24日，在極客公園最新發布的高考新課標Ⅰ卷大模型評測報告中，文科本科一批錄取分數線為521分，GPT-4o以562分排名文科總分第一，字節豆包以542.5分

當大模型化身考生參加高考，究竟會獲得怎樣的成績？

6月24日，在極客公園最新發布的高考新課標Ⅰ卷大模型評測報告中，文科本科一批錄取分數線為521分，GPT-4o以562分排名文科總分第一，字節豆包以542.5分位列于GPT-4o之后，排名國產AI第一。字節豆包、文心一言、百小應三款國產AI成功超過一本線。

但與文科相比，大模型在理科方面的表現卻不盡如人意，其最高分數不到480分的標準，而多數大模型的理科成績更是低于400分。與河南地區理科一本線的511分相比，大模型尚有很大差距。

圖源：極客公園

大模型語言能力強項，作文仍需繼續提升

在所有考試科目中，語文、英語這兩門語言類考試，是大模型與人類考生實力最為接近的賽場，其主要原因還是因為知識記憶和語言文字運用是大模型的強項。

在語文考試中，憑借中文語言的“主場優勢”，包括GPT-4o這個外國考生在內，所有大模型的客觀題都能取得不錯的成績，三款國產大模型產品獲得了語文考試前三名，分別是百小應、字節豆包和騰訊元寶。

作為語文考試中，作為最容易拉開差距的題型，作文成為了本次考試的分水嶺。面對相對開放的作文題目“隨著互聯網的普及、人工智能的應用，越來越多的問題能很快得到答案。那么，我們的問題是否會越來越少？以上材料引發了你怎樣的聯想和思考？請寫一篇文章。”

本次評測的語文作文閱卷人，曾多次參加全國高考語文閱卷的北京市級骨干教師、懷柔區語文學科帶頭人夏老師表示，大模型的整體寫作能力處于一個很高的水平，大多數有清晰完整的結構，有邏輯性，語言通順流暢，甚至超過學生的寫作能力。“但其理性有余，感性不足，缺乏感情色彩，自然就缺乏感染力。”

令人驚喜的是，豆包大模型的作文得到了閱卷老師的好評。該文中顯出的對就業結構、倫理方面的擔心，展現出了豆包已經具有不錯的思想深度和思辨能力。在立住“問題”后，豆包還能隨即用反問句自然過渡，引出三個排比段提出解決問題的方法——保持“問題意識”。閱卷老師給這篇作文打了52分，其中用發展的眼光分析問題，結合現實生活揭示問題產生的根源和危害的部分頗為亮點，并且整體上“結構嚴謹，層層推進，語句流暢，認識全面”。

英語，寫作同樣是大模型的一大難題。本次評測默認所有大模型的聽力都獲得30分滿分。在閱讀和語言運用兩大項客觀問題的考試上，GPT-4o、百小應、通義千問獲得80分滿分，豆包和文心一言4.0也接近滿分。但是在40分的寫作考試中，最高分只有29分，分別由GPT-4o和百小應獲得，各家模型的英語寫作主要丟分在表達空泛、缺少細節上。如果大模型在未來能夠提升寫作能力，獲得高考滿分并非難事。

文綜整體出色，國產大模型進步飛快

在由歷史、地理、政治組成的新課標文綜考卷評測中，大模型整體表現優異。GPT-4o獲得237分的成績。國產大模型產品中，豆包的文綜成績最高，分數達到224.5分，其中歷史和政治兩科得分率超過80%。如果分科來看，豆包在歷史考試中以82.5分在所有參與考試的大模型中位列第一，而“外來的和尚”GPT-4o則在政治考試中取得88分的佳績。

在被稱為“文科中的理科”地理考卷中包含大量圖片問題，且地理的學科屬性中有著更強的邏輯能力，對一眾大模型而言是不小的挑戰，最終的得分也證明了大模型整體對于地理考試的不擅長，圖像理解能力較強的GPT-4o取得最高分，但最終也僅取得68分。

河南高考分數段統計數據顯示，GPT-4o的562分在文科考生中排名8811名，相當于人類考生的前2.45%。而在國產大模型中，豆包以542.5分位列第一，處于前4.27%的位置。

在過去的一年中，國產AI大模型取得了顯著的提升，其整體能力已經可以與GPT-4等國際頂尖大模型一較高下。高考評測報告結果也表明，我國在人工智能領域的研發實力和技術成果正在不斷進步，與國際先進水平的差距也在進一步縮小。

理綜成績差距較大，AI需學會像人類一樣思考

盡管大模型在文科領域展現出了一定的優勢，但在數學、物理、化學等理科科目上，它們的性能與人類頂尖考生相比有著顯著的差距。經過全面的評估，包括GPT-4o在內的大模型在這些科目中均未能達到及格標準，即便是最好的成績也無法躋身人類考生的前30%。

以數學為例，9款大模型產品中，僅GPT-4o、文心一言4.0和豆包三款模型的得分略高于60分（滿分150分）。這意味著目前的大模型在處理復雜的數學問題時仍然力不從心，只能解決一些相對簡單的推理步驟，且存在把簡單問題復雜化的情況。據測試機構透露，豆包等大模型能準確運用求導公式和三角函數定理，但是面對較為復雜的推導和證明問題就很難繼續得分。

重點考查實驗探究能力的化學和物理試卷，各模型平均分更是只有34分和39分（滿分為100和110）。化學單項最高分由豆包獲得，成績為49.5分，GPT-4o僅有42分。大模型在應對考試的靈活性上也不如人類。例如物理考試中有一道送分題，人類考生根據“時間不會倒流”可以排除錯誤選項，輕易選對正確答案“C”，大模型則幾乎全軍覆沒。

此外，大模型在整體表現上雖然取得了一定的成績，但仍存在一些問題。例如，它們普遍缺乏反思能力，當計算過程出現錯誤時，無法像人類一樣進行檢查和修正。此外，在回答某些問題時，AI模型可能會過于依賴已有的知識和經驗，而忽略了一些新的信息和觀點。

要學會像人類一樣思考和解決問題，大模型還有很長的路要走。

AI的發展不僅僅是技術上的突破，更需要在應用場景和領域上進行不斷的探索和創新。從幾年前AI開始嘗試做小學題目，到2022 年第一次有人將AI帶進高考的英語考場，再到現在以豆包為代表的國產大模型“考生”取得不俗的文綜成績。正如一位大模型考生在語文作文中所提到的“路漫漫其修遠兮，吾將上下而求索。”這次模擬高考的結束，將會成為大模型發展的新起點，相信AI在不遠的將來一定能夠為我們帶來更多的驚喜和改變。（作者周靖杰實習生蔣瑞）

本文鏈接：http://www.tebozhan.com/showinfo-16-97408-0.htmlAI大模型挑戰高考：豆包等三款國產大模型突破文科一本線數理學科仍需提升

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： 5G碰撞AI，在2024世界移動通信大會看見數字生活

下一篇：段宇：視源股份將通過多項產品及技術助力企業數字化轉型

標簽：

熱門焦點

5月iOS設備性能榜：M1 M2依舊是榜單前五

和上個月一樣，沒有新品發布的iOS設備性能榜的上榜設備并沒有什么更替，僅僅只有跑分變化而產生的排名變動，剛剛開始的蘋果WWDC2023，推出的產品也依舊是新款Mac Pro、新款Mac Stu
一文看懂為蘋果Vision Pro開發應用程序

譯者 | 布加迪審校 | 重樓蘋果的Vision Pro是一款混合現實（MR）頭戴設備。Vision Pro結合了虛擬現實（VR）和增強現實（AR）的沉浸感。其高分辨率顯示屏、先進的傳感器和強大的處理能力
讓我們一起聊聊文件的操作

文件【1】文件是什么？文件是保存數據的地方，是數據源的一種，比如大家經常使用的word文檔、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存數據，它既可以保
如何使用JavaScript創建一只圖像放大鏡？

譯者 | 布加迪審校 | 重樓如果您曾經瀏覽過購物網站，可能遇到過圖像放大功能。它可以讓您放大圖像的特定區域，以便瀏覽。結合這個小小的重要功能可以大大改善您網站的用戶體驗
年輕人的“職場羞恥感”，無處不在

作者：馮曉亭陶淘李欣張琳馬舒葉來源：燃次元“人在職場，應該選擇什么樣的著裝？”近日，在網絡上，一個與著裝相關的帖子引發關注，在該帖子里，一位在高級寫字樓亞洲金
滴滴違法違規被罰80.26億共存在16項違法事實

滴滴違法違規被罰80.26億存在16項違法事實開始于2121年7月，歷經一年時間，網絡安全審查辦公室對“滴滴出行”網絡安全審查終于有了一個暫時的結束。據“網信
DRAM存儲器10月價格下跌，NAND閃存本月價格與上月持平

10月30日，據韓國媒體消息，自今年年初以來一直在上漲的 DRAM 存儲器的交易價格僅在本月就下跌了近 10％，此次是全年首次降價，而NAND 閃存本月價格與上月持平。市
微軟發布Windows 11新版引入全新任務欄狀態

近日，微軟發布了Windows 11新版，而Build 22563更新主要引入了幾周前曝光的平板模式任務欄等，系統更流暢了。更新中，Windows 11加入了專門針對平板優化的任務欄
電博會與軟博會實現"線下+云端"的雙線融合

在本次“電博會”與“軟博會”雙展會利好條件的加持下，既可以發揮展會拉動人流、信息流、資金流實現快速交互流動的作用，繼而推動區域經濟良性發展；又可以聚

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

AI大模型挑戰高考：豆包等三款國產大模型突破文科一本線數理學科仍需提升

5月iOS設備性能榜：M1 M2依舊是榜單前五

一文看懂為蘋果Vision Pro開發應用程序

讓我們一起聊聊文件的操作

如何使用JavaScript創建一只圖像放大鏡？

年輕人的“職場羞恥感”，無處不在

滴滴違法違規被罰80.26億共存在16項違法事實

DRAM存儲器10月價格下跌，NAND閃存本月價格與上月持平

微軟發布Windows 11新版引入全新任務欄狀態

電博會與軟博會實現"線下+云端"的雙線融合

最新推薦

猜你喜歡

熱門推薦

相關資訊

AI大模型挑戰高考：豆包等三款國產大模型突破文科一本線 數理學科仍需提升

最新推薦

猜你喜歡

熱門推薦

相關資訊

AI大模型挑戰高考：豆包等三款國產大模型突破文科一本線數理學科仍需提升