4 月 30 日消息,從百川大模型官方公眾號獲悉,今日國內(nèi)大模型評測機構(gòu) SuperCLUE 發(fā)布了《中文大模型基準(zhǔn)測評 2024 年度 4 月報告》,報告選取國內(nèi)外具有代表性的 32 個大模型 4 月份的版本,通過多維度綜合性測評,對國內(nèi)外大模型發(fā)展現(xiàn)狀進行觀察與思考。報告顯示,百川智能的 Baichuan 3 在國內(nèi)大模型中排名第一,智譜 GLM-4、通義千問 2.1、文心一言 4.0、Moonshot (Kimi) 等大模型位列其后。從全球范圍來看,國外同行的 GPT-4、Claude3 得分更勝一籌。
SuperCLUE 是國內(nèi)通用大模型綜合性測評基準(zhǔn),其前身是第三方中文語言理解測評基準(zhǔn) CLUE(The Chinese Language Understanding Evaluation)。不同于傳統(tǒng)測評通過選擇題形式的測評,SuperCLUE 納入了開放主觀問題的測評。通過多維度多視角多層次的評測體系以及對話的形式,模擬大模型應(yīng)用場景,真實有效的考察模型生成能力。同時,SuperCLUE 通過構(gòu)建多輪對話場景,更深層次考察大模型在真實多輪對話場景的應(yīng)用效果,對大模型的上下文、記憶、對話能力全方位評測。
據(jù)介紹,SuperCLUE 本次測評由十大基礎(chǔ)任務(wù)組成,包括邏輯推理、代碼、語言理解、長文本、角色扮演等,題目為多輪開放式簡答題。評測集共 2194 題。
測試結(jié)果顯示,Baichuan3 的文科、理科能力均衡。在知識百科能力上 Baichuan 3 以 82 分的成績超越了 GPT-4-Turbo,在所有 32 個參與評測的國內(nèi)外大模型中排名第一。而在代表了大模型智力的“邏輯推理”能力上以 68.60 的成績超越 Claude3-Opus,也力壓一眾國內(nèi)大模型拔得頭籌。此外,在計算、代碼、工具使用能力上 Baichuan 3 表現(xiàn)同樣不俗,均排名國內(nèi)前三。
本文鏈接:http://www.tebozhan.com/showinfo-45-4192-0.html最新中文大模型測評:百川智能 Baichuan 3 國內(nèi)第一
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com