AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 資訊

AI大模型挑戰高考:豆包等三款國產大模型突破文科一本線 數理學科仍需提升

來源: 責編: 時間:2024-06-29 08:00:23 148觀看
導讀  當大模型化身考生參加高考,究竟會獲得怎樣的成績?  6月24日,在極客公園最新發布的高考新課標Ⅰ卷大模型評測報告中,文科本科一批錄取分數線為521分,GPT-4o以562分排名文科總分第一,字節豆包以542.5分

  當大模型化身考生參加高考,究竟會獲得怎樣的成績?adL28資訊網——每日最新資訊28at.com

  6月24日,在極客公園最新發布的高考新課標Ⅰ卷大模型評測報告中,文科本科一批錄取分數線為521分,GPT-4o以562分排名文科總分第一,字節豆包以542.5分位列于GPT-4o之后,排名國產AI第一。字節豆包、文心一言、百小應三款國產AI成功超過一本線。adL28資訊網——每日最新資訊28at.com

  但與文科相比,大模型在理科方面的表現卻不盡如人意,其最高分數不到480分的標準,而多數大模型的理科成績更是低于400分。與河南地區理科一本線的511分相比,大模型尚有很大差距。adL28資訊網——每日最新資訊28at.com

adL28資訊網——每日最新資訊28at.com

圖源:極客公園adL28資訊網——每日最新資訊28at.com

  大模型語言能力強項,作文仍需繼續提升adL28資訊網——每日最新資訊28at.com

  在所有考試科目中,語文、英語這兩門語言類考試,是大模型與人類考生實力最為接近的賽場,其主要原因還是因為知識記憶和語言文字運用是大模型的強項。adL28資訊網——每日最新資訊28at.com

  在語文考試中,憑借中文語言的“主場優勢”,包括GPT-4o這個外國考生在內,所有大模型的客觀題都能取得不錯的成績,三款國產大模型產品獲得了語文考試前三名,分別是百小應、字節豆包和騰訊元寶。adL28資訊網——每日最新資訊28at.com

  作為語文考試中,作為最容易拉開差距的題型,作文成為了本次考試的分水嶺。面對相對開放的作文題目“隨著互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?以上材料引發了你怎樣的聯想和思考?請寫一篇文章。”adL28資訊網——每日最新資訊28at.com

  本次評測的語文作文閱卷人,曾多次參加全國高考語文閱卷的北京市級骨干教師、懷柔區語文學科帶頭人夏老師表示,大模型的整體寫作能力處于一個很高的水平,大多數有清晰完整的結構,有邏輯性,語言通順流暢,甚至超過學生的寫作能力。“但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。”adL28資訊網——每日最新資訊28at.com

  令人驚喜的是,豆包大模型的作文得到了閱卷老師的好評。該文中顯出的對就業結構、倫理方面的擔心,展現出了豆包已經具有不錯的思想深度和思辨能力。在立住“問題”后,豆包還能隨即用反問句自然過渡,引出三個排比段提出解決問題的方法——保持“問題意識”。閱卷老師給這篇作文打了52分,其中用發展的眼光分析問題,結合現實生活揭示問題產生的根源和危害的部分頗為亮點,并且整體上“結構嚴謹,層層推進,語句流暢,認識全面”。adL28資訊網——每日最新資訊28at.com

  英語,寫作同樣是大模型的一大難題。本次評測默認所有大模型的聽力都獲得30分滿分。在閱讀和語言運用兩大項客觀問題的考試上,GPT-4o、百小應、通義千問獲得80分滿分,豆包和文心一言4.0也接近滿分。但是在40分的寫作考試中,最高分只有29分,分別由GPT-4o和百小應獲得,各家模型的英語寫作主要丟分在表達空泛、缺少細節上。如果大模型在未來能夠提升寫作能力,獲得高考滿分并非難事。adL28資訊網——每日最新資訊28at.com

 文綜整體出色,國產大模型進步飛快adL28資訊網——每日最新資訊28at.com

  在由歷史、地理、政治組成的新課標文綜考卷評測中,大模型整體表現優異。GPT-4o獲得237分的成績。國產大模型產品中,豆包的文綜成績最高,分數達到224.5分,其中歷史和政治兩科得分率超過80%。如果分科來看,豆包在歷史考試中以82.5分在所有參與考試的大模型中位列第一,而“外來的和尚”GPT-4o則在政治考試中取得88分的佳績。adL28資訊網——每日最新資訊28at.com

  在被稱為“文科中的理科”地理考卷中包含大量圖片問題,且地理的學科屬性中有著更強的邏輯能力,對一眾大模型而言是不小的挑戰,最終的得分也證明了大模型整體對于地理考試的不擅長,圖像理解能力較強的GPT-4o取得最高分,但最終也僅取得68分。adL28資訊網——每日最新資訊28at.com

  河南高考分數段統計數據顯示,GPT-4o的562分在文科考生中排名8811名,相當于人類考生的前2.45%。而在國產大模型中,豆包以542.5分位列第一,處于前4.27%的位置。adL28資訊網——每日最新資訊28at.com

  在過去的一年中,國產AI大模型取得了顯著的提升,其整體能力已經可以與GPT-4等國際頂尖大模型一較高下。高考評測報告結果也表明,我國在人工智能領域的研發實力和技術成果正在不斷進步,與國際先進水平的差距也在進一步縮小。adL28資訊網——每日最新資訊28at.com

  理綜成績差距較大,AI需學會像人類一樣思考adL28資訊網——每日最新資訊28at.com

  盡管大模型在文科領域展現出了一定的優勢,但在數學、物理、化學等理科科目上,它們的性能與人類頂尖考生相比有著顯著的差距。經過全面的評估,包括GPT-4o在內的大模型在這些科目中均未能達到及格標準,即便是最好的成績也無法躋身人類考生的前30%。adL28資訊網——每日最新資訊28at.com

  以數學為例,9款大模型產品中,僅GPT-4o、文心一言4.0和豆包三款模型的得分略高于60分(滿分150分)。這意味著目前的大模型在處理復雜的數學問題時仍然力不從心,只能解決一些相對簡單的推理步驟,且存在把簡單問題復雜化的情況。據測試機構透露,豆包等大模型能準確運用求導公式和三角函數定理,但是面對較為復雜的推導和證明問題就很難繼續得分。adL28資訊網——每日最新資訊28at.com

adL28資訊網——每日最新資訊28at.com

  重點考查實驗探究能力的化學和物理試卷,各模型平均分更是只有34分和39分(滿分為100和110)。化學單項最高分由豆包獲得,成績為49.5分,GPT-4o僅有42分。大模型在應對考試的靈活性上也不如人類。例如物理考試中有一道送分題,人類考生根據“時間不會倒流”可以排除錯誤選項,輕易選對正確答案“C”,大模型則幾乎全軍覆沒。adL28資訊網——每日最新資訊28at.com

  此外,大模型在整體表現上雖然取得了一定的成績,但仍存在一些問題。例如,它們普遍缺乏反思能力,當計算過程出現錯誤時,無法像人類一樣進行檢查和修正。此外,在回答某些問題時,AI模型可能會過于依賴已有的知識和經驗,而忽略了一些新的信息和觀點。adL28資訊網——每日最新資訊28at.com

  要學會像人類一樣思考和解決問題,大模型還有很長的路要走。adL28資訊網——每日最新資訊28at.com

  AI的發展不僅僅是技術上的突破,更需要在應用場景和領域上進行不斷的探索和創新。從幾年前AI開始嘗試做小學題目,到2022 年第一次有人將AI帶進高考的英語考場,再到現在以豆包為代表的國產大模型“考生”取得不俗的文綜成績。正如一位大模型考生在語文作文中所提到的“路漫漫其修遠兮,吾將上下而求索。”這次模擬高考的結束,將會成為大模型發展的新起點,相信AI在不遠的將來一定能夠為我們帶來更多的驚喜和改變。(作者周靖杰 實習生蔣瑞)adL28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-16-97408-0.htmlAI大模型挑戰高考:豆包等三款國產大模型突破文科一本線 數理學科仍需提升

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 5G碰撞AI,在2024世界移動通信大會看見數字生活

下一篇: 段宇:視源股份將通過多項產品及技術助力企業數字化轉型

標簽:
  • 熱門焦點
  • 5月iOS設備性能榜:M1 M2依舊是榜單前五

    和上個月一樣,沒有新品發布的iOS設備性能榜的上榜設備并沒有什么更替,僅僅只有跑分變化而產生的排名變動,剛剛開始的蘋果WWDC2023,推出的產品也依舊是新款Mac Pro、新款Mac Stu
  • 一文看懂為蘋果Vision Pro開發應用程序

    譯者 | 布加迪審校 | 重樓蘋果的Vision Pro是一款混合現實(MR)頭戴設備。Vision Pro結合了虛擬現實(VR)和增強現實(AR)的沉浸感。其高分辨率顯示屏、先進的傳感器和強大的處理能力
  • 讓我們一起聊聊文件的操作

    文件【1】文件是什么?文件是保存數據的地方,是數據源的一種,比如大家經常使用的word文檔、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存數據,它既可以保
  • 如何使用JavaScript創建一只圖像放大鏡?

    譯者 | 布加迪審校 | 重樓如果您曾經瀏覽過購物網站,可能遇到過圖像放大功能。它可以讓您放大圖像的特定區域,以便瀏覽。結合這個小小的重要功能可以大大改善您網站的用戶體驗
  • 年輕人的“職場羞恥感”,無處不在

    作者:馮曉亭 陶 淘 李 欣 張 琳 馬舒葉來源:燃次元“人在職場,應該選擇什么樣的著裝?”近日,在網絡上,一個與著裝相關的帖子引發關注,在該帖子里,一位在高級寫字樓亞洲金
  • 滴滴違法違規被罰80.26億 共存在16項違法事實

    滴滴違法違規被罰80.26億 存在16項違法事實開始于2121年7月,歷經一年時間,網絡安全審查辦公室對“滴滴出行”網絡安全審查終于有了一個暫時的結束。據“網信
  • DRAM存儲器10月價格下跌,NAND閃存本月價格與上月持平

    10月30日,據韓國媒體消息,自今年年初以來一直在上漲的 DRAM 存儲器的交易價格僅在本月就下跌了近 10%,此次是全年首次降價,而NAND 閃存本月價格與上月持平。市
  • 微軟發布Windows 11新版 引入全新任務欄狀態

    近日,微軟發布了Windows 11新版,而Build 22563更新主要引入了幾周前曝光的平板模式任務欄等,系統更流暢了。更新中,Windows 11加入了專門針對平板優化的任務欄
  • 電博會與軟博會實現"線下+云端"的雙線融合

    在本次“電博會”與“軟博會”雙展會利好條件的加持下,既可以發揮展會拉動人流、信息流、資金流實現快速交互流動的作用,繼而推動區域經濟良性發展;又可以聚
Top