當大模型化身考生參加高考,究竟會獲得怎樣的成績?
6月24日,在極客公園最新發布的高考新課標Ⅰ卷大模型評測報告中,文科本科一批錄取分數線為521分,GPT-4o以562分排名文科總分第一,字節豆包以542.5分位列于GPT-4o之后,排名國產AI第一。字節豆包、文心一言、百小應三款國產AI成功超過一本線。
但與文科相比,大模型在理科方面的表現卻不盡如人意,其最高分數不到480分的標準,而多數大模型的理科成績更是低于400分。與河南地區理科一本線的511分相比,大模型尚有很大差距。
圖源:極客公園
大模型語言能力強項,作文仍需繼續提升
在所有考試科目中,語文、英語這兩門語言類考試,是大模型與人類考生實力最為接近的賽場,其主要原因還是因為知識記憶和語言文字運用是大模型的強項。
在語文考試中,憑借中文語言的“主場優勢”,包括GPT-4o這個外國考生在內,所有大模型的客觀題都能取得不錯的成績,三款國產大模型產品獲得了語文考試前三名,分別是百小應、字節豆包和騰訊元寶。
作為語文考試中,作為最容易拉開差距的題型,作文成為了本次考試的分水嶺。面對相對開放的作文題目“隨著互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?以上材料引發了你怎樣的聯想和思考?請寫一篇文章。”
本次評測的語文作文閱卷人,曾多次參加全國高考語文閱卷的北京市級骨干教師、懷柔區語文學科帶頭人夏老師表示,大模型的整體寫作能力處于一個很高的水平,大多數有清晰完整的結構,有邏輯性,語言通順流暢,甚至超過學生的寫作能力。“但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。”
令人驚喜的是,豆包大模型的作文得到了閱卷老師的好評。該文中顯出的對就業結構、倫理方面的擔心,展現出了豆包已經具有不錯的思想深度和思辨能力。在立住“問題”后,豆包還能隨即用反問句自然過渡,引出三個排比段提出解決問題的方法——保持“問題意識”。閱卷老師給這篇作文打了52分,其中用發展的眼光分析問題,結合現實生活揭示問題產生的根源和危害的部分頗為亮點,并且整體上“結構嚴謹,層層推進,語句流暢,認識全面”。
英語,寫作同樣是大模型的一大難題。本次評測默認所有大模型的聽力都獲得30分滿分。在閱讀和語言運用兩大項客觀問題的考試上,GPT-4o、百小應、通義千問獲得80分滿分,豆包和文心一言4.0也接近滿分。但是在40分的寫作考試中,最高分只有29分,分別由GPT-4o和百小應獲得,各家模型的英語寫作主要丟分在表達空泛、缺少細節上。如果大模型在未來能夠提升寫作能力,獲得高考滿分并非難事。
文綜整體出色,國產大模型進步飛快
在由歷史、地理、政治組成的新課標文綜考卷評測中,大模型整體表現優異。GPT-4o獲得237分的成績。國產大模型產品中,豆包的文綜成績最高,分數達到224.5分,其中歷史和政治兩科得分率超過80%。如果分科來看,豆包在歷史考試中以82.5分在所有參與考試的大模型中位列第一,而“外來的和尚”GPT-4o則在政治考試中取得88分的佳績。
在被稱為“文科中的理科”地理考卷中包含大量圖片問題,且地理的學科屬性中有著更強的邏輯能力,對一眾大模型而言是不小的挑戰,最終的得分也證明了大模型整體對于地理考試的不擅長,圖像理解能力較強的GPT-4o取得最高分,但最終也僅取得68分。
河南高考分數段統計數據顯示,GPT-4o的562分在文科考生中排名8811名,相當于人類考生的前2.45%。而在國產大模型中,豆包以542.5分位列第一,處于前4.27%的位置。
在過去的一年中,國產AI大模型取得了顯著的提升,其整體能力已經可以與GPT-4等國際頂尖大模型一較高下。高考評測報告結果也表明,我國在人工智能領域的研發實力和技術成果正在不斷進步,與國際先進水平的差距也在進一步縮小。
理綜成績差距較大,AI需學會像人類一樣思考
盡管大模型在文科領域展現出了一定的優勢,但在數學、物理、化學等理科科目上,它們的性能與人類頂尖考生相比有著顯著的差距。經過全面的評估,包括GPT-4o在內的大模型在這些科目中均未能達到及格標準,即便是最好的成績也無法躋身人類考生的前30%。
以數學為例,9款大模型產品中,僅GPT-4o、文心一言4.0和豆包三款模型的得分略高于60分(滿分150分)。這意味著目前的大模型在處理復雜的數學問題時仍然力不從心,只能解決一些相對簡單的推理步驟,且存在把簡單問題復雜化的情況。據測試機構透露,豆包等大模型能準確運用求導公式和三角函數定理,但是面對較為復雜的推導和證明問題就很難繼續得分。
重點考查實驗探究能力的化學和物理試卷,各模型平均分更是只有34分和39分(滿分為100和110)。化學單項最高分由豆包獲得,成績為49.5分,GPT-4o僅有42分。大模型在應對考試的靈活性上也不如人類。例如物理考試中有一道送分題,人類考生根據“時間不會倒流”可以排除錯誤選項,輕易選對正確答案“C”,大模型則幾乎全軍覆沒。
此外,大模型在整體表現上雖然取得了一定的成績,但仍存在一些問題。例如,它們普遍缺乏反思能力,當計算過程出現錯誤時,無法像人類一樣進行檢查和修正。此外,在回答某些問題時,AI模型可能會過于依賴已有的知識和經驗,而忽略了一些新的信息和觀點。
要學會像人類一樣思考和解決問題,大模型還有很長的路要走。
AI的發展不僅僅是技術上的突破,更需要在應用場景和領域上進行不斷的探索和創新。從幾年前AI開始嘗試做小學題目,到2022 年第一次有人將AI帶進高考的英語考場,再到現在以豆包為代表的國產大模型“考生”取得不俗的文綜成績。正如一位大模型考生在語文作文中所提到的“路漫漫其修遠兮,吾將上下而求索。”這次模擬高考的結束,將會成為大模型發展的新起點,相信AI在不遠的將來一定能夠為我們帶來更多的驚喜和改變。(作者周靖杰 實習生蔣瑞)
本文鏈接:http://www.tebozhan.com/showinfo-16-97408-0.htmlAI大模型挑戰高考:豆包等三款國產大模型突破文科一本線 數理學科仍需提升
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com