當前位置：首頁 > 元宇宙 > AI

通義千問開源數學模型Qwen2-Math，數學能力超越GPT-4o

來源：責編：時間：2024-08-10 07:54:51 95觀看

導讀8月9日消息，阿里通義團隊開源新一代數學模型Qwen2-Math，包含1.5B、7B、72B三個參數的基礎模型和指令微調模型。Qwen2-Math基于通義千問開源大語言模型Qwen2研發，旗艦模型Qwen2-Math-72B-Instruct在權威測評集MATH上的得

8月9日消息，阿里通義團隊開源新一代數學模型Qwen2-Math，包含1.5B、7B、72B三個參數的基礎模型和指令微調模型。Qwen2-Math基于通義千問開源大語言模型Qwen2研發，旗艦模型Qwen2-Math-72B-Instruct在權威測評集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等，以84%的準確率處理了代數、幾何、計數與概率、數論等多種數學問題，成為最先進的數學專項模型。

注：在MATH基準測評中，通義千問數學模型的旗艦款Qwen2-Math-72B-Instruct取得了84%的準確率，超過GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和 Llama-3.1-405B等開閉源模型。

Qwen2-Math 基礎模型使用Qwen2大語言模型進行初始化，并在精心設計的數學專用語料庫上進行預訓練，訓練數據包含大規模高質量的數學網絡文本、書籍、代碼、考試題目，以及由 Qwen2模型合成的數學預訓練數據。所有預訓練和微調數據集都進行了去污染處理。

隨后，研發團隊訓練了指令微調版本模型：基于Qwen2-Math-72B訓練一個數學專用的獎勵模型;接著，將密集的獎勵信號與指示模型是否正確回答問題的二元信號結合，用作學習標簽，再通過拒絕采樣構建監督微調(SFT)數據;最后在SFT模型基礎上使用GRPO 方法優化模型。

據悉，Qwen2-Math系列模型目前主要支持英文，通義團隊很快就將推出中英雙語版本，多語言版本也在開發中。

通義團隊在多個中英文數學基準測評集對指令微調模型作了性能評估，除了 GSM8K 和 MATH等常見的測評基準，還引入了更具挑戰性的考試競賽類測試，如奧林匹克級別的基準測評OlympiadBench、大學數學級別的基準測評CollegeMath、高考(GaoKao)、美國數學邀請賽(AIME)2024賽題、美國數學競賽(AMC)2023賽題，中文測評則有CMATH測評集、2024年中國高考和中考數學題。最終，Qwen2-Math-72B-Instruct表現優異，在十大測評中都獲得了遠超其他開源數學模型的成績。

注：研發團隊在greedy和RM@8的條件下對模型作了測評，表中為每款Qwen2-Math-72B-Instruct模型列出了三個得分結果，分別是第1次回答得分(無下標數字)、8次回答中出現最多次數的答案的得分，8次回答中rewardmodel所選答案的得分。

“大模型能不能做數學題”，不僅是社交平臺的熱門話題，也是業界非常關注的研究課題。處理高級數學問題，需要模型具備復雜多步邏輯推理能力。通義團隊在技術博客中表示，希望通過開源“為科學界解決高級數學問題做出貢獻”，未來將持續增強模型數學能力。

附：Qwen2-Math解題示例

本文鏈接：http://www.tebozhan.com/showinfo-45-6274-0.html通義千問開源數學模型Qwen2-Math，數學能力超越GPT-4o

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：解鎖新交互時代！字節豆包大模型賦能實時語音通話

下一篇：螞蟻集團被曝投資 AI 公司秘塔科技，2023年已投至少6家公司

標簽：

熱門焦點

這一超級富豪“逆襲”，身價大增4330億

來源：侃見財經互聯網的突圍沒有“終點”。在快節奏的商業環境下，不斷的試錯成了互聯網企業的標配，一年一個風口，一個風口造就一個熱點，但是回頭來看，最終受益的還是身處
一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

當數字人成為一種生意，我們更關心的是，他們如何賺到錢，以及這意味著什么？01#“柳夜熙”爆火之后不知道大家還記不記得，去年10月31日萬圣節，有一位虛擬美妝
關于年度熱詞NFT，除了錢，我們還可以聊點啥？

每到年底，社交媒體總少不了年度盤點、年度總結、年度熱詞。如果讓你來總結2021年度熱詞，你會想到什么？柯林斯詞典將年度熱詞頒給了“NFT”，而其理由是：一個縮寫詞的
如何對一款 NFT 項目進行價值評估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企業家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導 Web3 和 NFT 領域的企業家，因為我相信我們正在見證社會
字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

文 | 陳橋輝陳奕迅的《紅玫瑰》中有一句歌詞，“得不到的永遠在騷動”，這句話用到如今國內頭部游戲平臺再合適不過。隨著《原神》的異軍突起，使得頭部游戲大廠感受
借VR產業東風，江西搶灘布局“元宇宙”

自2016年起就在VR上傾注了大量精力的江西省，迅速搭上了“元宇宙”。VR、AR等技術是通往元宇宙的關鍵接口，使人們可以在數字空間和物理空間自由穿梭。自2016年起
暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

NFT Worlds 系列產品于 2021 年 10 月 5 日免費鑄造，該NFT系列是將傳統的中心化電子游戲minecraft 與去中心化資產相結合。傳統游戲Minecraft 對用戶定制非常開
技術賦能，國內首家寵物元宇宙平臺“Pet Meta”開啟虛擬養寵新方式

作者:易明未來，Pet Meta數字寵物藏品將是鏈接全球數億愛寵人群與元宇宙世界獨一無二的身份象征。首家面向國內的寵物元宇宙平臺Pet Meta生長于“寵物經濟”快速
元宇宙收割了誰

作者：曉宇資本將元宇宙看作下一代互聯網的門票，畫大餅、割韭菜就成了一大選項。2021年被稱為元宇宙元年。在這一年里，先是號稱元宇宙第一股的沙盒游戲Roblox盛裝

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

通義千問開源數學模型Qwen2-Math，數學能力超越GPT-4o

這一超級富豪“逆襲”，身價大增4330億

一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

關于年度熱詞NFT，除了錢，我們還可以聊點啥？

如何對一款 NFT 項目進行價值評估？

字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

借VR產業東風，江西搶灘布局“元宇宙”

暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

技術賦能，國內首家寵物元宇宙平臺“Pet Meta”開啟虛擬養寵新方式

元宇宙收割了誰

最新推薦

米哈游推出元宇宙品牌；VR/AR老牌企業當紅齊天完成B輪+融資

城市數字孿生標準化白皮書（2022版）

扎克伯格演示了一種“造物主”式的元宇宙語音機器人工具

知識產權可能在元宇宙中“消失”？

大廠打造元宇宙平臺的業務重心是什么？

超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

猜你喜歡

熱門推薦

相關資訊