當(dāng)前位置：首頁(yè) > 元宇宙 > AI

上海 AI 實(shí)驗(yàn)室聯(lián)合清華等大學(xué)突破強(qiáng)化學(xué)習(xí)算法，攻克 AI 推理熵崩潰難題

來(lái)源：責(zé)編：時(shí)間：2025-06-05 09:38:38 45觀看

導(dǎo)讀 6 月 4 日消息，上海人工智能實(shí)驗(yàn)室聯(lián)合清華大學(xué)、伊利諾伊大學(xué)香檳分校等學(xué)府，組建國(guó)際團(tuán)隊(duì)研發(fā)新方法，通過(guò) Clip-Cov 和 KL-Cov 技術(shù)有效應(yīng)對(duì)策略熵崩潰問(wèn)題。背景簡(jiǎn)介大型語(yǔ)言模型（LLMs）近年來(lái)在推理能力上的突

6 月 4 日消息，上海人工智能實(shí)驗(yàn)室聯(lián)合清華大學(xué)、伊利諾伊大學(xué)香檳分校等學(xué)府，組建國(guó)際團(tuán)隊(duì)研發(fā)新方法，通過(guò) Clip-Cov 和 KL-Cov 技術(shù)有效應(yīng)對(duì)策略熵崩潰問(wèn)題。

背景簡(jiǎn)介

大型語(yǔ)言模型（LLMs）近年來(lái)在推理能力上的突破，讓強(qiáng)化學(xué)習(xí)（RL）的應(yīng)用范圍從單一任務(wù)擴(kuò)展到更廣泛的場(chǎng)景，這種進(jìn)步賦予了模型更強(qiáng)的泛化能力和邏輯推理能力。

然而，與傳統(tǒng)的模仿學(xué)習(xí)不同，強(qiáng)化學(xué)習(xí)需要更高的計(jì)算資源來(lái)支持從經(jīng)驗(yàn)中學(xué)習(xí)，核心問(wèn)題在于策略熵（反映了模型在利用已知策略和探索新策略之間的平衡）的下降。

熵值過(guò)低會(huì)導(dǎo)致模型過(guò)度依賴已有策略，喪失探索能力。這一探索-利用權(quán)衡（exploitation-exploration trade-off）是強(qiáng)化學(xué)習(xí)的基礎(chǔ)，如何控制策略熵成為訓(xùn)練中的關(guān)鍵難題。

策略熵崩潰的理論與實(shí)踐突破

為解決這一問(wèn)題，研究團(tuán)隊(duì)提出了一個(gè)經(jīng)驗(yàn)公式：R = ?a exp H + b，其中 H 代表策略熵，R 為下游任務(wù)表現(xiàn)，a 和 b 為擬合系數(shù)。這一公式揭示了策略性能與熵值之間的權(quán)衡關(guān)系，指出熵耗盡是性能瓶頸。

研究進(jìn)一步分析了熵動(dòng)態(tài)變化，發(fā)現(xiàn)其受動(dòng)作概率與 logits 變化協(xié)方差的驅(qū)動(dòng)。為此，團(tuán)隊(duì)創(chuàng)新性地提出了 Clip-Cov 和 KL-Cov 兩種技術(shù)，分別通過(guò)裁剪高協(xié)方差 token 和施加 KL 懲罰來(lái)維持熵水平。

實(shí)驗(yàn)基于 Qwen2.5 模型和 DAPOMATH 數(shù)據(jù)集，覆蓋數(shù)學(xué)任務(wù)，結(jié)果顯示新方法在 7B 和 32B 模型上分別提升了 2.0% 和 6.4% 的性能，尤其在 AIME24 和 AIME25 等高難度基準(zhǔn)測(cè)試中，32B 模型性能提升高達(dá) 15.0%。

研究團(tuán)隊(duì)在包括 Qwen2.5、Mistral、LLaMA 和 DeepSeek 在內(nèi)的 11 個(gè)開(kāi)源模型上進(jìn)行了測(cè)試，參數(shù)規(guī)模從 0.5B 到 32B 不等，涵蓋數(shù)學(xué)和編程任務(wù)的 8 個(gè)公開(kāi)基準(zhǔn)測(cè)試。

訓(xùn)練采用 veRL 框架和零樣本設(shè)置，結(jié)合 GRPO、REINFORCE++ 等算法優(yōu)化策略性能。結(jié)果表明，Clip-Cov 和 KL-Cov 技術(shù)能維持更高的熵水平，例如 KL-Cov 方法在基線熵值趨于平穩(wěn)時(shí)仍保持 10 倍以上的熵值。

這不僅解決了策略熵崩潰問(wèn)題，也為強(qiáng)化學(xué)習(xí)在語(yǔ)言模型中的擴(kuò)展提供了理論支持。研究強(qiáng)調(diào)，熵動(dòng)態(tài)是性能提升的關(guān)鍵瓶頸，未來(lái)需進(jìn)一步探索熵管理策略，以推動(dòng)更智能語(yǔ)言模型的發(fā)展。

附上參考地址

The Entropy Mechanism of Reinforcement Learning for Large Language Model Reasoning

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

本文鏈接：http://www.tebozhan.com/showinfo-45-13428-0.html上海 AI 實(shí)驗(yàn)室聯(lián)合清華等大學(xué)突破強(qiáng)化學(xué)習(xí)算法，攻克 AI 推理熵崩潰難題

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： “立即行動(dòng)！”：OpenAI CEO 奧爾特曼示警，AI 時(shí)代企業(yè)不行動(dòng)就出局

下一篇： Claude Explains 首秀：AI 撰寫(xiě)專業(yè)技術(shù)博客，探索人機(jī)內(nèi)容協(xié)作新模式

標(biāo)簽：

熱門(mén)焦點(diǎn)

Niantic與索尼在音頻AR領(lǐng)域達(dá)成合作；?蘋(píng)果為Apple Park申請(qǐng)形象化商標(biāo)

今日熱點(diǎn)：迪士尼任命新高管負(fù)責(zé)元宇宙業(yè)務(wù)；iFixit成為Valve Index VR頭顯和Steam Deck首家零件銷售商；Niantic與索尼達(dá)成合作，將為AR游戲《Ingress》帶來(lái)音頻體驗(yàn)；V
AI特效、虛擬人、數(shù)字盲盒，來(lái)看看元宇宙如何融合冬奧會(huì)！

今天是冬奧會(huì)比賽的第12天，截至目前所累計(jì)的成績(jī)，中國(guó)代表團(tuán)已經(jīng)取得了冬奧歷史最佳戰(zhàn)績(jī)。全世界的人都在關(guān)注著這場(chǎng)盛事，為奧運(yùn)健兒吶喊助威。谷愛(ài)凌、徐夢(mèng)桃、
全面擁抱“虛擬世界”，摩登天空要打造“音樂(lè)元宇宙”

作者：袁佳琦沈黎暉不怎么打游戲，但許多事兒在他眼里都“有意思”。好玩，有意思，是他的口頭禪，在接受娛樂(lè)獨(dú)角獸的采訪過(guò)程中，他多次提到，做虛擬音樂(lè)人，“是件挺好玩的
紐約街頭出現(xiàn)NFT自動(dòng)販賣(mài)機(jī)

一家初創(chuàng)公司宣布在紐約市開(kāi)放一臺(tái)NFT自動(dòng)售貨機(jī)，允許任何人——即使是沒(méi)有加密資產(chǎn)的人也能購(gòu)買(mǎi)NFT。該交易平臺(tái)名為Neon，上個(gè)月完成了一輪300萬(wàn)美元的種子募捐
Shiba Inu布局元宇宙走出Meme局限

以「狗狗幣殺手」成名的Shiba Inu（SHIB）在人們的印象中始終有著濃厚的Meme（模因惡搞）烙印，但它似乎一直在嘗試突破這種局限。建立起一個(gè)龐大的粉絲社區(qū)后，Shiba Inu
暴漲100倍的NFT worlds 會(huì)是未來(lái)元宇宙的雛形嗎？

NFT Worlds 系列產(chǎn)品于 2021 年 10 月 5 日免費(fèi)鑄造，該NFT系列是將傳統(tǒng)的中心化電子游戲minecraft 與去中心化資產(chǎn)相結(jié)合。傳統(tǒng)游戲Minecraft 對(duì)用戶定制非常開(kāi)
用戶可以把自己的醫(yī)療健康數(shù)據(jù)做成NFT出售給醫(yī)藥公司掙錢(qián)

你可能聽(tīng)說(shuō)過(guò)不可偽造的代幣，或NFTs。NFTs是數(shù)字代幣，代表完全獨(dú)特的項(xiàng)目的所有權(quán)；存儲(chǔ)在區(qū)塊鏈中并可追蹤，它們不能被修改、替換或復(fù)制。作為NFT鑄造的資產(chǎn)在數(shù)字
對(duì)諷刺無(wú)動(dòng)于衷，Nori將碳市場(chǎng)放在區(qū)塊鏈上

當(dāng)我們聊氣候問(wèn)題的解決方案時(shí)，以太坊區(qū)塊鏈應(yīng)該不是最首想到的，但這正是Nori所選擇的方案，它建立了一個(gè)引擎，鼓勵(lì)農(nóng)民使用負(fù)碳耕作方法，將空氣中的碳抽出并放回地
超級(jí)賬本Julian Gordon：聯(lián)盟鏈與公鏈的競(jìng)爭(zhēng)不是非此即彼

在2021年《福布斯》區(qū)塊鏈50強(qiáng)榜單中，29家企業(yè)使用Hyperledger超級(jí)賬本技術(shù)，占比近60%。同年，研究機(jī)構(gòu)Blockdata發(fā)布了的調(diào)查報(bào)告顯示，訪問(wèn)Top100上市公司中，有 81

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

上海 AI 實(shí)驗(yàn)室聯(lián)合清華等大學(xué)突破強(qiáng)化學(xué)習(xí)算法，攻克 AI 推理熵崩潰難題

Niantic與索尼在音頻AR領(lǐng)域達(dá)成合作；?蘋(píng)果為Apple Park申請(qǐng)形象化商標(biāo)

AI特效、虛擬人、數(shù)字盲盒，來(lái)看看元宇宙如何融合冬奧會(huì)！

全面擁抱“虛擬世界”，摩登天空要打造“音樂(lè)元宇宙”

紐約街頭出現(xiàn)NFT自動(dòng)販賣(mài)機(jī)

Shiba Inu布局元宇宙走出Meme局限

暴漲100倍的NFT worlds 會(huì)是未來(lái)元宇宙的雛形嗎？

用戶可以把自己的醫(yī)療健康數(shù)據(jù)做成NFT出售給醫(yī)藥公司掙錢(qián)

對(duì)諷刺無(wú)動(dòng)于衷，Nori將碳市場(chǎng)放在區(qū)塊鏈上

超級(jí)賬本Julian Gordon：聯(lián)盟鏈與公鏈的競(jìng)爭(zhēng)不是非此即彼

最新推薦

ChatGPT訪問(wèn)量增速下滑，AI真的是一場(chǎng)泡沫嗎？

“元宇宙”里過(guò)大年，《迷你世界》在做一場(chǎng)怎樣的實(shí)驗(yàn)？

頂流IP“冰墩墩”帶著中國(guó)元素NFT進(jìn)入全球視野

小眾有趣NFT藝術(shù)作品欣賞（1）

a16z：元宇宙辦公會(huì)取代實(shí)體辦公室嗎？

如何在元宇宙中建立品牌忠誠(chéng)度

猜你喜歡

熱門(mén)推薦

相關(guān)資訊