AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

通義千問開源數學模型Qwen2-Math,數學能力超越GPT-4o

來源: 責編: 時間:2024-08-10 07:54:51 95觀看
導讀8月9日消息,阿里通義團隊開源新一代數學模型Qwen2-Math,包含1.5B、7B、72B三個參數的基礎模型和指令微調模型。Qwen2-Math基于通義千問開源大語言模型Qwen2研發,旗艦模型Qwen2-Math-72B-Instruct在權威測評集MATH上的得

8月9日消息,阿里通義團隊開源新一代數學模型Qwen2-Math,包含1.5B、7B、72B三個參數的基礎模型和指令微調模型。Qwen2-Math基于通義千問開源大語言模型Qwen2研發,旗艦模型Qwen2-Math-72B-Instruct在權威測評集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的準確率處理了代數、幾何、計數與概率、數論等多種數學問題,成為最先進的數學專項模型。IYA28資訊網——每日最新資訊28at.com

注:在MATH基準測評中,通義千問數學模型的旗艦款Qwen2-Math-72B-Instruct取得了84%的準確率,超過GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和 Llama-3.1-405B等開閉源模型。IYA28資訊網——每日最新資訊28at.com

Qwen2-Math 基礎模型使用Qwen2大語言模型進行初始化,并在精心設計的數學專用語料庫上進行預訓練,訓練數據包含大規模高質量的數學網絡文本、書籍、代碼、考試題目,以及由 Qwen2模型合成的數學預訓練數據。所有預訓練和微調數據集都進行了去污染處理。IYA28資訊網——每日最新資訊28at.com

隨后,研發團隊訓練了指令微調版本模型:基于Qwen2-Math-72B訓練一個數學專用的獎勵模型;接著,將密集的獎勵信號與指示模型是否正確回答問題的二元信號結合,用作學習標簽,再通過拒絕采樣構建監督微調(SFT)數據;最后在SFT模型基礎上使用GRPO 方法優化模型。IYA28資訊網——每日最新資訊28at.com

據悉,Qwen2-Math系列模型目前主要支持英文,通義團隊很快就將推出中英雙語版本,多語言版本也在開發中。IYA28資訊網——每日最新資訊28at.com

通義團隊在多個中英文數學基準測評集對指令微調模型作了性能評估,除了 GSM8K 和 MATH等常見的測評基準,還引入了更具挑戰性的考試競賽類測試,如奧林匹克級別的基準測評OlympiadBench、大學數學級別的基準測評CollegeMath、高考(GaoKao)、美國數學邀請賽(AIME)2024賽題、美國數學競賽(AMC)2023賽題,中文測評則有CMATH測評集、2024年中國高考和中考數學題。最終,Qwen2-Math-72B-Instruct表現優異,在十大測評中都獲得了遠超其他開源數學模型的成績。IYA28資訊網——每日最新資訊28at.com

注:研發團隊在greedy和RM@8的條件下對模型作了測評,表中為每款Qwen2-Math-72B-Instruct模型列出了三個得分結果,分別是第1次回答得分(無下標數字)、8次回答中出現最多次數的答案的得分,8次回答中rewardmodel所選答案的得分。IYA28資訊網——每日最新資訊28at.com

“大模型能不能做數學題”,不僅是社交平臺的熱門話題,也是業界非常關注的研究課題。處理高級數學問題,需要模型具備復雜多步邏輯推理能力。通義團隊在技術博客中表示,希望通過開源“為科學界解決高級數學問題做出貢獻”,未來將持續增強模型數學能力。IYA28資訊網——每日最新資訊28at.com

附:Qwen2-Math解題示例IYA28資訊網——每日最新資訊28at.com

Qwen2-Math解題示例

本文鏈接:http://www.tebozhan.com/showinfo-45-6274-0.html通義千問開源數學模型Qwen2-Math,數學能力超越GPT-4o

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 解鎖新交互時代!字節豆包大模型賦能實時語音通話

下一篇: 螞蟻集團被曝投資 AI 公司秘塔科技,2023年已投至少6家公司

標簽:
  • 熱門焦點
Top