AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

直逼 DeepSeek-R1-32B,UC 伯克利等開源全新 SOTA 推理模型 OpenThinker-32B

來源: 責(zé)編: 時(shí)間:2025-02-15 15:48:31 63觀看
導(dǎo)讀 32B 推理模型,僅用 1/8 數(shù)據(jù),與同尺寸 DeepSeek-R1 打成平手。就在剛剛,來自斯坦福、UC 伯克利、華盛頓大學(xué)等機(jī)構(gòu)聯(lián)手發(fā)布了一款 SOTA 級(jí)推理模型 ——OpenThinker-32B,并同時(shí)開源了高達(dá) 114k 的訓(xùn)練數(shù)據(jù)。項(xiàng)目

32B 推理模型,僅用 1/8 數(shù)據(jù),與同尺寸 DeepSeek-R1 打成平手。Or528資訊網(wǎng)——每日最新資訊28at.com

就在剛剛,來自斯坦福、UC 伯克利、華盛頓大學(xué)等機(jī)構(gòu)聯(lián)手發(fā)布了一款 SOTA 級(jí)推理模型 ——OpenThinker-32B,并同時(shí)開源了高達(dá) 114k 的訓(xùn)練數(shù)據(jù)。Or528資訊網(wǎng)——每日最新資訊28at.com

Or528資訊網(wǎng)——每日最新資訊28at.com

Or528資訊網(wǎng)——每日最新資訊28at.com

項(xiàng)目主頁:https://www.open-thoughts.ai/blog/scaleOr528資訊網(wǎng)——每日最新資訊28at.com

Hugging Face:https://huggingface.co/open-thoughts/OpenThinker-32BOr528資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114kOr528資訊網(wǎng)——每日最新資訊28at.com

團(tuán)隊(duì)發(fā)現(xiàn):采用經(jīng) DeepSeek-R1 驗(yàn)證標(biāo)注(基于 R1 蒸餾)的大規(guī)模優(yōu)質(zhì)數(shù)據(jù)集,便可訓(xùn)練出 SOTA 的推理模型。Or528資訊網(wǎng)——每日最新資訊28at.com

具體方法,就是通過數(shù)據(jù)規(guī)模化、推理過程驗(yàn)證以及模型規(guī)模擴(kuò)展。Or528資訊網(wǎng)——每日最新資訊28at.com

由此得到的 OpenThinker-32B,在數(shù)學(xué)、代碼和科學(xué)等多個(gè)基準(zhǔn)測(cè)試中,OpenThinker-32B 性能直接碾壓了李飛飛團(tuán)隊(duì) s1 和 s1.1 模型,直逼 R1-Distill-32B。Or528資訊網(wǎng)——每日最新資訊28at.com

值得一提的是,相比于使用了 800k 數(shù)據(jù)(包含 600k 個(gè)推理樣本)的 R1-Distill,OpenThinker-32B 僅用了 114k 數(shù)據(jù),就能拿下幾乎同等的優(yōu)異成績(jī)。Or528資訊網(wǎng)——每日最新資訊28at.com

Or528資訊網(wǎng)——每日最新資訊28at.com

結(jié)果均通過開源評(píng)估框架 Evalchemy 計(jì)算得出

除此之外,OpenThinker-32 還把模型權(quán)重、數(shù)據(jù)集、數(shù)據(jù)生成代碼、訓(xùn)練代碼上,全部都給公開了!Or528資訊網(wǎng)——每日最新資訊28at.com

Or528資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)策展

研究人員使用了與之前訓(xùn)練 OpenThinker-7B 模型相同的 OpenThoughts-114k 數(shù)據(jù)集來訓(xùn)練 OpenThinker-32B。Or528資訊網(wǎng)——每日最新資訊28at.com

他們利用 DeepSeek-R1 模型,收集了精心挑選的 17.3 萬個(gè)問題的推理過程和解答嘗試。然后將這些原始數(shù)據(jù)作為 OpenThoughts-Unverfied-173k 數(shù)據(jù)集公開發(fā)布。Or528資訊網(wǎng)——每日最新資訊28at.com

整個(gè)流程的最后一步是,如果推理過程未能通過驗(yàn)證,就過濾掉相應(yīng)的數(shù)據(jù)樣本。Or528資訊網(wǎng)——每日最新資訊28at.com

下圖可視化地展示了整個(gè)過程。Or528資訊網(wǎng)——每日最新資訊28at.com

研究團(tuán)隊(duì)首先輸入源數(shù)據(jù)或問題提示,這些內(nèi)容可以來自不同的領(lǐng)域和平臺(tái),如 BAAI / TACO、DeepMind、Python 提交等,涉及代碼、謎題、科學(xué)和數(shù)學(xué)等多個(gè)方面。Or528資訊網(wǎng)——每日最新資訊28at.com

接著這些多元的輸入會(huì)進(jìn)入核心的處理模塊 ——DeepSeek-R1,在這里對(duì)數(shù)據(jù)進(jìn)行分析與處理。這些問題會(huì)被分成三個(gè)方面,分別是:科學(xué)類問題、數(shù)學(xué)與謎題和代碼。Or528資訊網(wǎng)——每日最新資訊28at.com

有些結(jié)果不需要驗(yàn)證,可能是簡(jiǎn)單的分析或直接輸出。對(duì)于一些需要深入驗(yàn)證的內(nèi)容,利用大語言模型(LLM)采用與 GT(Ground Truth)對(duì)比的方式進(jìn)行評(píng)判。如果是代碼,執(zhí)行代碼并進(jìn)行單元測(cè)試,確保代碼的正確性和有效性。Or528資訊網(wǎng)——每日最新資訊28at.com

最后能將不同方向的結(jié)果結(jié)合起來,生成開放的思考和更為綜合的解決方案。Or528資訊網(wǎng)——每日最新資訊28at.com

Or528資訊網(wǎng)——每日最新資訊28at.com

研究團(tuán)隊(duì)更新了最終的 OpenThoughts-114k 數(shù)據(jù)集,加入了一個(gè)名為「metadata」的配置,其中包含了一些用于數(shù)據(jù)集構(gòu)建的額外列:Or528資訊網(wǎng)——每日最新資訊28at.com

problemOr528資訊網(wǎng)——每日最新資訊28at.com

ground_truth_solutionOr528資訊網(wǎng)——每日最新資訊28at.com

test_cases (code only)Or528資訊網(wǎng)——每日最新資訊28at.com

starter_code (code only)Or528資訊網(wǎng)——每日最新資訊28at.com

DeepSeek_reasoningOr528資訊網(wǎng)——每日最新資訊28at.com

DeepSeek_solutionOr528資訊網(wǎng)——每日最新資訊28at.com

domainOr528資訊網(wǎng)——每日最新資訊28at.com

sourceOr528資訊網(wǎng)——每日最新資訊28at.com

這些額外的元數(shù)據(jù)將使得這個(gè)數(shù)據(jù)集更容易用于新的場(chǎng)景,例如數(shù)據(jù)過濾、領(lǐng)域切換、驗(yàn)證檢查以及更改推理過程的模板。Or528資訊網(wǎng)——每日最新資訊28at.com

這些額外的元數(shù)據(jù)將得使該數(shù)據(jù)集使用起來更加容易,僅需一行代碼就能完成例如過濾、更換領(lǐng)域、檢查驗(yàn)證和更改推理跟蹤模板等。Or528資訊網(wǎng)——每日最新資訊28at.com

load_dataset("open-thoughts/OpenThoughts-114k","metadata",split="train")

研究團(tuán)隊(duì)表示,他們期待看到社區(qū)利用這些問題和標(biāo)準(zhǔn)答案,在 OpenThinker 模型上進(jìn)行強(qiáng)化學(xué)習(xí)(RL)的研究。DeepScaleR 已經(jīng)證明,規(guī)模較小時(shí),這種方法效果特別好。Or528資訊網(wǎng)——每日最新資訊28at.com

驗(yàn)證

為了得到最終的 OpenThoughts-114k 數(shù)據(jù)集,研究團(tuán)隊(duì)對(duì)答案進(jìn)行了驗(yàn)證,并剔除了不正確的回答。Or528資訊網(wǎng)——每日最新資訊28at.com

如下表所示,保留那些未通過驗(yàn)證的推理過程可能會(huì)損害性能,盡管未經(jīng)驗(yàn)證的模型與其他 32B 推理模型相比仍然表現(xiàn)良好。Or528資訊網(wǎng)——每日最新資訊28at.com

驗(yàn)證的作用在于,在擴(kuò)大訓(xùn)練提示集的多樣性和規(guī)模的同時(shí),保持 R1 注釋的質(zhì)量。另一方面,未經(jīng)驗(yàn)證的數(shù)據(jù)可以更容易地?cái)U(kuò)展,因此也值得進(jìn)一步探索。Or528資訊網(wǎng)——每日最新資訊28at.com

Or528資訊網(wǎng)——每日最新資訊28at.com

對(duì)于代碼問題,他們通過對(duì)照已有的測(cè)試用例來驗(yàn)證解答嘗試,從而完成推理過程的驗(yàn)證。Or528資訊網(wǎng)——每日最新資訊28at.com

受到代碼執(zhí)行過程中所面臨挑戰(zhàn)的啟發(fā),他們?cè)?Curator 中實(shí)現(xiàn)了一個(gè)代碼執(zhí)行框架,使用戶能夠大規(guī)模、安全地執(zhí)行代碼,并對(duì)照預(yù)期輸出進(jìn)行驗(yàn)證。Or528資訊網(wǎng)——每日最新資訊28at.com

對(duì)于數(shù)學(xué)問題,研究團(tuán)隊(duì)使用一個(gè) LLM(大語言模型)評(píng)判器來進(jìn)行驗(yàn)證,它會(huì)同時(shí)接收標(biāo)準(zhǔn)答案和 DeepSeek-R1 的解答嘗試。Or528資訊網(wǎng)——每日最新資訊28at.com

結(jié)果發(fā)現(xiàn),在數(shù)據(jù)生成過程中,使用 LLM 評(píng)判器而不是更嚴(yán)格的解析引擎(Math-Verify)進(jìn)行驗(yàn)證,可以獲得更高的有效數(shù)據(jù)率,并能訓(xùn)練出性能更好的下游模型。Or528資訊網(wǎng)——每日最新資訊28at.com

Or528資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練

研究團(tuán)隊(duì)使用 LLaMa-Factory 對(duì) Qwen2.5-32B-Instruct 在 OpenThoughts-114k 數(shù)據(jù)集上進(jìn)行了三輪微調(diào),上下文長(zhǎng)度為 16k。完整訓(xùn)練配置可在 GitHub 中找到。Or528資訊網(wǎng)——每日最新資訊28at.com

OpenThinker-32B 在 AWS SageMaker 集群上使用四個(gè) 8xH100 P5 節(jié)點(diǎn)訓(xùn)練了 90 小時(shí),累計(jì)使用了 2,880 個(gè) H100 小時(shí)。Or528資訊網(wǎng)——每日最新資訊28at.com

同時(shí),OpenThinker-32B-Unverified 在 Leonardo 超級(jí)計(jì)算機(jī)上使用 96 個(gè) 4xA100 節(jié)點(diǎn)(每個(gè) GPU64GB)訓(xùn)練了 30 小時(shí),累計(jì)使用了 11,520 個(gè) A100 小時(shí)。Or528資訊網(wǎng)——每日最新資訊28at.com

評(píng)估

研究團(tuán)隊(duì)使用開源評(píng)估庫 Evalchemy(煉金術(shù))對(duì)所有模型進(jìn)行評(píng)估。Or528資訊網(wǎng)——每日最新資訊28at.com

對(duì)于 AIME24 和 AIME25,他們通過平均五次運(yùn)行的結(jié)果來計(jì)算準(zhǔn)確率。評(píng)估配置使用 0.7 的溫度參數(shù),將模型響應(yīng)限制在 32,768 個(gè) token 以內(nèi),不添加任何額外的系統(tǒng)或用戶提示詞,也不使用任何特殊的解碼策略(如預(yù)算強(qiáng)制)。Or528資訊網(wǎng)——每日最新資訊28at.com

當(dāng)啟動(dòng) OpenThoughts 項(xiàng)目時(shí),他們?cè)O(shè)定了一個(gè)目標(biāo),即創(chuàng)建一個(gè)性能可以達(dá)到 DeepSeek-R1-Distill-Qwen-32B 的開放數(shù)據(jù)模型。Or528資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在這個(gè)差距已經(jīng)幾乎消除。Or528資訊網(wǎng)——每日最新資訊28at.com

最后,研究團(tuán)隊(duì)為社區(qū)在過去幾周在構(gòu)建開放數(shù)據(jù)推理模型方面取得的快速進(jìn)展感到振奮,并期待基于彼此的洞見繼續(xù)向前發(fā)展。Or528資訊網(wǎng)——每日最新資訊28at.com

OpenThinker-32B 的開源,證明了數(shù)據(jù)、驗(yàn)證和模型規(guī)模的協(xié)同作用是提升推理能力的關(guān)鍵。Or528資訊網(wǎng)——每日最新資訊28at.com

這一成果不僅推動(dòng)了開源推理模型的發(fā)展,也為整個(gè) AI 社區(qū)提供了寶貴的資源和啟示。Or528資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號(hào):新智元(ID:AI_era),原標(biāo)題《直逼 DeepSeek-R1-32B,碾壓李飛飛 s1!UC 伯克利等開源全新 SOTA 推理模型》Or528資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-10780-0.html直逼 DeepSeek-R1-32B,UC 伯克利等開源全新 SOTA 推理模型 OpenThinker-32B

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 阿里巴巴蔡崇信:AI 競(jìng)爭(zhēng)很激烈,DeepSeek 轉(zhuǎn)變行業(yè)思路

下一篇: 4S店強(qiáng)制買車險(xiǎn)?學(xué)會(huì)這句話,委婉拒絕不糾結(jié)!

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 虛擬人再升級(jí),企業(yè)可以解放雙手了?

    來源:伯虎財(cái)經(jīng)今天想跟大家來嘮嘮AI,其實(shí)聊到這個(gè)話題很多人都不陌生了。在ChatGPT和AIGC大熱背后,還有一位低調(diào)的“大佬”——虛擬人。比如咱們熟知的虛
  • 藍(lán)標(biāo)虧錢、Meta裁員:天下秀還值得砸錢元宇宙嗎?

    日前,天下秀數(shù)字科技集團(tuán)正式公布了2022年報(bào)及2023年一季報(bào)。報(bào)告顯示,2022年天下秀實(shí)現(xiàn)營(yíng)收41.29億元,同比下滑8.48%;歸母凈利潤(rùn)1.8億元,同比下滑49.2%,幾乎出現(xiàn)了盈利腰斬的態(tài)勢(shì)
  • 茅臺(tái)的元宇宙App火了,也被罵慘了

    元宇宙從概念走向大眾生活,并不是一件簡(jiǎn)單的事情。技術(shù)、世界觀、填充內(nèi)容、載體形式,每一個(gè)環(huán)節(jié)都需要層層疊疊的邏輯。但正如賽博朋克奠基人威廉·吉布
  • 元宇宙步入暗夜

    撰文 | 文燁豪元宇宙的故事,似乎講不通了。 當(dāng)下,刮起元宇宙熱潮的Roblox股價(jià)已跌去大半,帶頭大哥Meta也正因元宇宙虧損深陷泥潭。 再看國(guó)內(nèi),從字節(jié)“派對(duì)島&
  • 完美世界被元宇宙“拒之門外”

    春節(jié)期間,游戲是消磨時(shí)間最好的方式,完美世界的《幻塔》作為選擇的首要目標(biāo),倒不是因?yàn)樗奈τ卸啻螅兇馐菑V大網(wǎng)友的吐槽。繼《原神》之后,進(jìn)擊元宇宙的游戲
  • 銀保監(jiān)會(huì):打擊以“元宇宙”為名義的違法行為

    今日,銀保監(jiān)會(huì)發(fā)布《關(guān)于防范以“元宇宙”名義進(jìn)行非法集資的風(fēng)險(xiǎn)提示》,全文如下:近期,一些不法分子蹭熱點(diǎn),以“元宇宙投資項(xiàng)目”“元宇宙鏈游”等名目吸收資金,涉
  • 音樂家如何利用NFTs來提高歌迷參與度

    "音樂是一種語言,不以特定的文字說話。它用情感說話,如果它在骨子里,它就在骨子里。" - Keith Richards音樂激勵(lì)著我們,使我們流淚,使我們充滿狂喜,并撫慰我們的靈魂
  • 知名藝術(shù)家打造去中心化“好萊塢”:一部電影一個(gè)DAO

    根據(jù)市場(chǎng)追蹤網(wǎng)站 DappRadar 的數(shù)據(jù),隨著 NFT 的“出圈”與加密貨幣的普及,NFT 市場(chǎng)在 2021 年的銷售額達(dá)到約 250 億美元,而 2020 年僅為 9490 萬美元,同比增超 2
  • 冬奧會(huì)數(shù)字收藏品升溫,市場(chǎng)再現(xiàn)“一墩難求”

    根據(jù)公開信息顯示,國(guó)際奧委會(huì)官方授權(quán)的冰墩墩數(shù)字盲盒于北京時(shí)間2月12日凌晨在nWayPlay平臺(tái)發(fā)售,總數(shù)為500個(gè),每個(gè)99美元,每人限購5個(gè)。此外,不同的奧運(yùn)徽章數(shù)字藏
Top