當前位置：首頁 > 科技 > 軟件

中文大模型 2024 半年報出爐，通義千問通用能力國內第一

來源：責編：時間：2024-07-10 17:52:20 163觀看

導讀 7 月 10 日消息，中文大模型測評基準 SuperCLUE 發布 2024 上半年報告，披露針對國內外 33 個大模型的綜合測評結果。阿里通義千問的開源模型 Qwen2-72B 成為排名第一的中國大模型，也是全球最強的開源模型，SuperCLU

7 月 10 日消息，中文大模型測評基準 SuperCLUE 發布 2024 上半年報告，披露針對國內外 33 個大模型的綜合測評結果。阿里通義千問的開源模型 Qwen2-72B 成為排名第一的中國大模型，也是全球最強的開源模型，SuperCLUE 報告認為通義千問“超過眾多國內外閉源模型”，“引領全球的開源生態”。

CLUE（The Chinese Language Understanding Evaluation）是發起于 2019 年的中文語言理解測評基準，致力于開展科學、客觀、中立的語言模型評測，SuperCLUE 聚焦于通用大模型的綜合性測評。

本次半年度測評針對國內外 33 個大模型的 6 月份版本進行，由理科、文科和 Hard 三大維度構成。理科任務包括計算、邏輯推理、代碼測評；文科任務分為知識百科、語言理解、長文本、角色扮演、生成與創作、安全和工具使用七大測評；Hard 任務主要是精確指令遵循測評，未來還將推出復雜多步推理和高難度問題解決等測評。

圖說：SuperCLUE 國際最好模型（GPT-4o）與國內最好模型（Qwen2-72）的整體性能對比

從代表通用能力的一級總分來看，OpenAI 的 GPT-4o 以 81 分高居榜首，Claude-3.5-Sonnet 與通義千問開源模型 Qwen2-72B-Instruct 并列第二，得分均為 77。通義千問既是排名最高的中國大模型，也是排名最高的開源大模型，性能超越文心一言 4.0、訊飛星火 V4.0、Llama-3-70B 等開閉源大模型。

具體到理科、文科、Hard 三個維度來看，國內外大模型的理科能力存在一定差距，GPT-4o 以絕對優勢領跑，Qwen2-72B 的理科測試比 GPT-4o 少 5 分；文科任務上，大模型之間的區分度不明顯，GPT-4o 與 Qwen2-72B 等模型的得分均為 76；精確指令遵循能力方面，僅有 GPT-4o 和 Claude 3.5 Sonnet 得分超過 80，國內表現最好的 Qwen2-72B 比 GPT-4o 低 6 分。

報告同時公布了端側小模型測評榜單，通義千問 70 億參數開源模型 Qwen2-7B 排名第一，打敗了上一代版本的 Qwen1.5-32B（320 億參數）和 Llama-3-8B-Instruct（130 億參數），展現了更小尺寸的模型的極致性能。報告認為，2024 年上半年端側小模型進展迅速、表現驚艷，極大提升了落地的可行性。

據悉，Qwen2 是阿里在今年 6 月推出的通義千問第二代開源模型，已先后登頂國內外多個權威榜單，引領中國開源模型強勢崛起。Qwen 系列開源模型下載量已經突破 2000 萬次。SuperCLUE 報告點評：“綜合來看，Qwen2-72B 整體能力不俗，引領全球的開源生態，是一個非常有競爭力的通用開源大模型，可應用于推理、數理分析、信息處理或相對專業復雜場景，重點推薦應用于工業、金融、醫療、汽車等垂直專業場景。”

附：

?SuperCLUE 官方推文鏈接

?《中文大模型基準評測 2024 上半年報告》原文鏈接：

www.cluebenchmarks.com/superclue_24h1

本文鏈接：http://www.tebozhan.com/showinfo-26-100065-0.html中文大模型 2024 半年報出爐，通義千問通用能力國內第一

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：三星電子：計劃在 HBM4 世代為客戶開發多樣化定制 HBM 內存

下一篇：同比增長 105%，報告稱 HBM 芯片明年月產能突破 54 萬顆

標簽：

熱門焦點

SpringBoot中使用Cache提升接口性能詳解

環境：springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架從 3.1 開始，對 Spring 應用程序提供了透明式添加緩存的支持。和事務支持一樣，抽象緩存允許一致地使用各
使用Webdriver-manager解決瀏覽器與驅動不匹配所帶來自動化無法執行的問題

1、前言在我們使用 Selenium 進行 UI 自動化測試時，常常會因為瀏覽器驅動與瀏覽器版本不匹配，而導致自動化測試無法執行，需要手動去下載對應的驅動版本，并替換原有的驅動，可能還
大廠卷向扁平化

來源：新熵作者丨南枝編輯丨月見大廠職級不香了。俗話說，兵無常勢，水無常形，互聯網企業調整職級體系并不稀奇。7月13日，淘寶天貓集團啟動了近年來最大的人力制度改革，目前已形成一
網紅炒股不為了賺錢，那就是耍流氓！

來源：首席商業評論6月26日高調宣布入市，網絡名嘴大v胡錫進居然進軍了股市。在一次財經媒體峰會上，幾個財經圈媒體大佬就“胡錫進炒股是否知道認真報道”展開討論。有
微博大門常打開，迎接海外畫師漂洋東渡

作者:互聯網那些事“起猛了，我能看得懂日語了”。“為什么日本人說話我能聽懂？”“中文不像中文，日語不像日語，但是我竟然看懂了”…&hell
三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

2023年7月26日，三星電子正式發布了Galaxy Z Flip5與Galaxy Z Fold5。除此之外，Galaxy Tab S9系列平板電腦以及三星Galaxy Watch6系列智能手表也同期
超級標準版旗艦！iQOO 11S全球首發iQOO超算獨顯芯片

上半年已接近尾聲，截至目前各大品牌旗下的頂級旗艦都已悉數亮相，而下半年即將推出的頂級旗艦已經成為了數碼圈爆料的主流，其中就包括全新的iQOO 11S系
iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

在昨日舉行的的聯發科新一代旗艦芯片天璣9200+的發布會上，iQOO官方也正式宣布，全新的iQOO Neo8系列新品將全球首發搭載這款當前性能最強大的移動平臺
onebot M24巧系列一體機采用輕薄機身設計，現已在各平臺開售

onebot M24 巧系列一體機目前已在線上線下各平臺同步開售。onebot M24 巧系列采用一體化輕薄機身設計，最薄處為 10.15mm，擁有寶石紅、午夜藍、石墨綠、雅致

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

中文大模型 2024 半年報出爐，通義千問通用能力國內第一

SpringBoot中使用Cache提升接口性能詳解

使用Webdriver-manager解決瀏覽器與驅動不匹配所帶來自動化無法執行的問題

大廠卷向扁平化

網紅炒股不為了賺錢，那就是耍流氓！

微博大門常打開，迎接海外畫師漂洋東渡

三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

超級標準版旗艦！iQOO 11S全球首發iQOO超算獨顯芯片

iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

onebot M24巧系列一體機采用輕薄機身設計，現已在各平臺開售

最新推薦

猜你喜歡

熱門推薦

相關資訊