當前位置：首頁 > 科技 > 網絡

豆包文科成績超了一本線：為什么理科不行

來源：責編：時間：2024-07-01 17:11:20 168觀看

導讀什么？好多大模型的文科成績超一本線，還是卷的河南省？？？△圖源：極客公園沒錯，近就有這么一項大模型“高考大摸底”評測走紅了。河南高考文科今年的一本線是521分，根據這項評測，共計四個大模型大于或等于這

什么？好多大模型的文科成績超一本線，還是卷的河南省？？？

豆包文科成績超了一本線：為什么理科不行 △圖源：極客公園

沒錯，近就有這么一項大模型“高考大摸底”評測走紅了。

河南高考文科今年的一本線是521分，根據這項評測，共計四個大模型大于或等于這個分數，其中頭兩名值得關注：

GPT-4o：562分

字節豆包：542.5分

……

從結果中來看，GPT-4o的表現依舊是處于領先狀態，而在國產大模型這邊，比較亮眼的成績便屬于豆包了。

并且在語文和歷史等科目的成績甚至還超越了GPT-4o。

這也讓不少網友紛紛感慨：

AI文科成績這么好，看來在處理語言和邏輯上還是很有優勢的。

豆包文科成績超了一本線：為什么理科不行

不過有一說一，畢竟國產大模型的競爭是如此之激烈，這份評測的排名真的靠譜嗎？發布僅數月的豆包，真具備此等實力嗎？以及這數學……又是怎么一回事兒？

先看評測榜單

要回答上述的問題，我們不妨先來查一查豆包在新的權威評測榜單中的表現是否一致。

首先有請由智源研究院發布的FlagEval（天秤）。

它的評測方式是這樣的：

對于開源模型， FlagEval會綜合概率選擇和自由生成兩種方式來評測，對于閉源模型， FlagEval只采用自由生成的方式來評測，兩種評測方式區別參照。

主觀評測時部分閉源模型對極小部分題目有拒絕回答的情形，這部分題目并沒有計入能力分數的計算。

在“客觀評測”這個維度上，榜單成績如下：

豆包文科成績超了一本線：為什么理科不行

不難看出，這一維度下的FlagEval中，前四名的成績是與“高考大摸底”的名次一致。

大模型依舊分別來自OpenAI、字節跳動、百度和百川智能。

并且豆包在“知識運用”和“數學能力”兩個維度上成績還高于第一名的GPT-4。

若是將評測方式調節至“主觀評測”，那么結果是這樣的：

豆包文科成績超了一本線：為什么理科不行

此時，百度的大模型躍居到了第一名，而字節的豆包依舊是穩居第二的成績。

由此可見，不論是主觀還是客觀維度上，前幾位的名次都是與“高考大摸底”的成績是比較接近的。

接下來，我們再來有請另一個權威測評——OpenCompass（司南）。

豆包文科成績超了一本線：為什么理科不行

在新的5月榜單中，豆包的成績也是僅次于OpenA家的大模型。

同樣的，在細分的“語言”和“推理”兩個維度中，豆包還是超越了GPT-4o和GPT-4 Turbo。

豆包文科成績超了一本線：為什么理科不行

但與專業評測冷冰冰的分數相比，人們都對高考有著更深刻的體驗和記憶。

那么接下來我們就通過豆包回答高考題，來看看大模型在應對人類考試時的具體表現。

再看實際效果

既然目前許多試卷的題目都已經流出，我們不妨親測一下豆包的實力。

例如讓它先寫一篇新課標I卷語文的作文題目：

隨著互聯網的普及、人工智能的應用，越來越多的問題能很快得到答案。那么，我們的問題是否會越來越少？

以上材料引發了你怎樣的聯想和思考？請寫一篇文章。

要求：選準角度，確定立意，明確文體，自擬標題；不要套作，不得抄襲；不得泄露個人信息；不少于800字。

豆包文科成績超了一本線：為什么理科不行 △結果由豆包PC端對話生成

從豆包的作答上來看，是已經擺脫了AI寫作文經常犯的“首先-其次-以及-后”這種模板式的寫法，也擅長引經據典來做論證。

但畢竟每個人對于文筆的審美標準不同，因此豆包高考作文寫得如何，評價就交給你們了（歡迎在留言區討論）。

值得一提的是，在量子位向豆包團隊詢問后得知，原來豆包PC端對話和手機端“拍題答疑”是兩種截然不同的招式——

前者走的是LLM鏈路，后者走的則是RAG鏈路（若是用豆包手機端“拍題答疑”功能，高考數理化成績也能接近滿分）。

加上在這次“高考大摸底”評測出爐之后，很多網友們都將關注的重點聚焦到了數學成績上：

AI也怕數學。

豆包文科成績超了一本線：為什么理科不行

因此，接下來的實際效果測試，我們就將以“LLM鏈路+數學”的方式來展開。

先拿這次的選擇題來小試牛刀一下：

豆包文科成績超了一本線：為什么理科不行

當我們把題目在PC端“喂”豆包之后，它的作答如下：

豆包文科成績超了一本線：為什么理科不行

因此，豆包給出的答案是：

A、C、D、D、B、B、A、A

這里我們再來引入排名第一選手GPT-4o的作答：

A、D、B、D、C、A、C、B

豆包文科成績超了一本線：為什么理科不行

而根據網上目前多個信源得到的標準答案是：A、C、D、A、B、B、C、B。

對比來看，豆包對5道，GPT-4o答對4道。

而對于更多的數學題的作答，其實復旦大學自然語言處理實驗室在高考試卷曝光后第一時間做了更加全面的測試（所有大模型只能依靠LLM推理答題，不能通過RAG檢索答案）：

豆包文科成績超了一本線：為什么理科不行

豆包文科成績超了一本線：為什么理科不行 △圖源：復旦大學自然語言處理實驗室

由此可見，大模型并不能完全hold住高考數學題目，并且不同人生成答案的結果也會出現偏差。

并且量子位在反復測試后發現，豆包對話答題時有一定隨機性，多輪測試時的結果并不完全一樣。上文只取樣其中一輪的結果。

這也正如廣大網友所反饋的那般——大模型文科強、理科弱。

對此，技術圈也已經有一些討論和解釋：

大語言模型的基本原理是“文字接龍”，通過預測下一個token來生成內容，每次預測都有隨機性和概率分布。

當大語言模型學習了海量知識數據，天然就適應考驗記憶能力和語言運用的文科考試。

但理科考試主要考驗推理和計算，比如一道數學題包含5步推理和5步計算，假設大語言模型每一步預測準確的概率都有90%，綜合下來的準確率就只有35%。

另一方面，理科語料比較稀缺。大模型的訓練數據中，文科語料要遠遠大于理科語料。這也是大模型更擅長文科的一個原因。

大模型都在努力提升智能水平，主要目標就是提高推理和計算能力。目前學界對此存在爭議，有觀點認為，“預測下一個token”本身就包含了推理，計算也是一種推理。

只要Scaling Law生效，大模型性能持續提升，推理和計算能力就能夠提升；但也有反對者（如Yann LeCun）認為，大語言模型缺乏真正的規劃推理能力，其涌現能力實際上是上下文學習的結果，主要體現在簡單任務和事先知道答案的情境中。大語言模型未來是否能夠真正實現AGI，目前還沒有定論。

那是不是大模型就不適合用戶來解數學題了呢？

也并不全是。

正如剛才所說，如果用豆包手機端的“拍題答疑”，也就是RAG鏈路的方式，那么結果的“打開方式”就截然不同了。

我們可以先用豆包APP對著題目拍照，讓它先進行識別：

豆包文科成績超了一本線：為什么理科不行

結果就是——全對！

豆包文科成績超了一本線：為什么理科不行

至于更多類型題目大模型們的表現會如何，友友們可以拿著感興趣的題目自行測試一番了。

如何評價？

從“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等評測上可以看到，豆包大模型已經穩穩進入國產第一梯隊。

但隨即而來的一個問題便是，過去一年多異常低調的豆包，是如何在短短一個月內就開始爆發的？

其實早在發布之際，豆包與其它大模型廠商截然不同的路徑就已經有所體現，歸結其背后的邏輯就是：

只有大的使用量，才能打磨出好的大模型。

據了解，豆包大模型在5月15日正式發布時，其每天平均處理的token數量高達1200億，相當于1800億的漢字；每天生成圖片的數量為3000萬張。

不僅如此，豆包大模型家族還會在包括抖音、今日頭條等在內的50多個場景中進行實踐和驗證。

因此，我們可以把豆包在大模型性能上的路數，視為用“左手使用量，右手多場景”的方式反復打磨而來。

一言蔽之，大模型好不好，用一下就知道了。

并且基于豆包大模型打造的同名產品豆包APP，已成為國內受歡迎的AIGC類應用。

這一點上，從量子位智庫所匯總的智能助手“APP下載總量”和“APP月新增下載總量”便可一目了然——

豆包，均拿下第一。

文章出處：量子位

本文鏈接：http://www.tebozhan.com/showinfo-17-97821-0.html豆包文科成績超了一本線：為什么理科不行

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：微軟回應關閉所有線下授權門店：已決定對中國大陸市場渠道進行整合

下一篇：中國地鐵站有廁所讓老外破防：美國網友感嘆干凈里面的水能直接喝

標簽：

熱門焦點

俄羅斯：將審查iPhone等外國公司設備保數據安全

iPhone和特斯拉都屬于在各自領域領頭羊的品牌，推出的產品也也都是數一數二的，但對于一些國家而言，它們的產品可靠性和安全性還是在限制范圍內。近日，俄羅斯聯邦通信、信息技術
Golang 中的 io 包詳解：組合接口

io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是對Reader和Writer接口的組合，
企業采用CRM系統的11個好處

客戶關系管理（CRM）軟件可以為企業提供很多的好處，從客戶保留到提高生產力。　　CRM軟件用于企業收集客戶互動，以改善客戶體驗和滿意度。　　CRM軟件市場規模如今超過580
Temu起訴SHEIN，跨境電商戰事升級

來源 | 伯虎財經（bohuFN）作者 | 陳平安日前據外媒報道，拼多多旗下跨境電商平臺Temu正對競爭對手SHEIN提起新訴訟，訴狀稱Shein“利用市場支配力量強迫服裝廠商與之簽訂獨家
東方甄選單飛：有些鳥注定是關不住的

文/彭寬鴻編輯/羅卿東方甄選創始人俞敏洪帶隊的“7天甘肅行”直播活動已在近日順利收官。成立后一年多時間里，東方甄選要脫離抖音自立門戶的傳聞不絕于耳，“7
華為發布HarmonyOS 4：更好玩、更流暢、更安全

在8月4日的華為開發者大會2023（HDC.Together）大會上，HarmonyOS 4正式發布。自2019年發布以來，HarmonyOS一直以用戶為中心，經歷四年多的發展HarmonyOS已
iQOO 11S新品發布會

iQOO將在7月4日19:00舉行新品發布會，推出杭州亞運會電競賽事官方用機iQOO 11S。
iQOO Neo8 Pro真機諜照曝光：天璣9200+和V1+旗艦雙芯加持

去年10月，iQOO推出了iQOO Neo7系列機型，不僅搭載了天璣9000+，而且是同價位唯一一款天璣9000+直屏旗艦，一經上市便受到了用戶的廣泛關注。在時隔半年后，
DRAM存儲器10月價格下跌，NAND閃存本月價格與上月持平

10月30日，據韓國媒體消息，自今年年初以來一直在上漲的 DRAM 存儲器的交易價格僅在本月就下跌了近 10％，此次是全年首次降價，而NAND 閃存本月價格與上月持平。市

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

豆包文科成績超了一本線：為什么理科不行

俄羅斯：將審查iPhone等外國公司設備保數據安全

Golang 中的 io 包詳解：組合接口

企業采用CRM系統的11個好處

Temu起訴SHEIN，跨境電商戰事升級

東方甄選單飛：有些鳥注定是關不住的

華為發布HarmonyOS 4：更好玩、更流暢、更安全

iQOO 11S新品發布會

iQOO Neo8 Pro真機諜照曝光：天璣9200+和V1+旗艦雙芯加持

DRAM存儲器10月價格下跌，NAND閃存本月價格與上月持平

最新推薦

猜你喜歡

熱門推薦

相關資訊