快科技7月18日消息,日前由上海人工智能實(shí)驗(yàn)室旗下司南評(píng)測(cè)體系OpenCompass,對(duì)7個(gè)AI大模型進(jìn)行了高考9個(gè)科目的全科目測(cè)試,從而能全面評(píng)測(cè)大模型實(shí)力。
此次參與測(cè)試的模型分別來自阿里巴巴、零一萬物、智譜AI、上海人工智能實(shí)驗(yàn)室&商湯、法國(guó)Mistral的開源模型,以及OpenAI的閉源模型GPT-4o。
以參加高考人數(shù)多的河南省分?jǐn)?shù)線作為參考,文科成績(jī)好的AI模型能夠達(dá)到一本線,而理科成績(jī)好的模型則只能上二本。
文科狀元由阿里通義千問大模型以546分的成績(jī)奪得,而理科狀元?jiǎng)t是上海人工智能實(shí)驗(yàn)室&商湯聯(lián)合研發(fā)的浦語文曲星,得分為468.5分。
OpenAI的GPT-4o在文科上得分531分,排名第三,理科得分為467分,排名第二。
在評(píng)測(cè)中,AI在文科科目如語文、歷史、地理、思想政治等科目上展現(xiàn)了深厚的知識(shí)儲(chǔ)備和理解能力,但在理科科目中,數(shù)理推理能力普遍存在短板。
特別是在面對(duì)帶圖題目時(shí),得分率僅有37.64%,顯示出在圖片理解和運(yùn)用能力方面,所有大模型均存在較大提升空間。
閱卷老師指出,盡管大模型在基礎(chǔ)知識(shí)掌握上表現(xiàn)出色,但在邏輯推理和知識(shí)靈活應(yīng)用方面仍有較大差距。
例如在作答主觀題時(shí),大模型常常無法完整理解題干,導(dǎo)致答非所問;在解答數(shù)學(xué)題時(shí),解題過程機(jī)械且邏輯性差。
本文鏈接:http://www.tebozhan.com/showinfo-17-101636-0.html七大模型全部高考分?jǐn)?shù)出爐:文科能上一本、理科好是二本
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com