2 月 12 日晚間消息,在中國 AI 公司的影響下,OpenAI 公開了 O 系列強化學習的秘密。
今天(2 月 12 日),OpenAI 發(fā)布了關于推理模型在競技編程中應用的研究論文報告《Competitive Programming with Large Reasoning Models》,文中放出了 OpenAI 三個推理模型:o1、o1-ioi、o3 在 IOI(國際信息學奧林匹克競賽)和 CodeForces(全球知名在線編程競賽)中的成績。
論文顯示,在 IOI 2024 中,o3 在嚴格規(guī)則下拿到 395.64 分,達成金牌成就,并且在 CodeForces 上的表現(xiàn)與人類精英選手相當。
論文中還提到,中國的 DeepSeek-R1 和 Kimik1.5 通過獨立研究顯示,利用思維鏈學習(COT)方法,可顯著提升模型在數(shù)學解題與編程挑戰(zhàn)中的綜合表現(xiàn)。R1、k1.5 是 DeepSeek 和 Kimi 在 1 月 20 日同時發(fā)布的新型推理模型。
該論文通過強化學習(RL)訓練的大型語言模型在復雜編碼和推理任務上的性能提升,比較了通用推理模型與針對特定領域優(yōu)化的系統(tǒng)在競技編程中的表現(xiàn)。研究結果表明,增加強化學習訓練計算和測試時計算可顯著提升模型性能,使其接近世界頂尖人類選手,這些模型將在科學、編碼、數(shù)學等領域的 AI 應用中解鎖新的應用體驗。
本文鏈接:http://www.tebozhan.com/showinfo-45-10742-0.htmlOpenAI 最新論文:o3 在 IOI 2024 嚴格規(guī)則下拿到 395.64 分達成金牌成就
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com