當(dāng)前位置：首頁 > 元宇宙 > AI

Meta 推出強(qiáng)化學(xué)習(xí)新框架 SWEET-RL，讓 AI 更懂人類意圖

來源：責(zé)編：時間：2025-03-25 10:04:18 84觀看

導(dǎo)讀 3 月 24 日消息，科技媒體 marktechpost 昨日（3 月 23 日）發(fā)布博文，報道稱 Meta AI 公司攜手加州大學(xué)伯克利分校，合作推出名為 SWEET-RL 的強(qiáng)化學(xué)習(xí)框架，并發(fā)布了 CollaborativeAgentBench（ColBench）基準(zhǔn)測試。這一創(chuàng)

3 月 24 日消息，科技媒體 marktechpost 昨日（3 月 23 日）發(fā)布博文，報道稱 Meta AI 公司攜手加州大學(xué)伯克利分校，合作推出名為 SWEET-RL 的強(qiáng)化學(xué)習(xí)框架，并發(fā)布了 CollaborativeAgentBench（ColBench）基準(zhǔn)測試。

這一創(chuàng)新旨在提升大語言模型（LLMs）在多輪人機(jī)協(xié)作任務(wù)中的表現(xiàn)，特別是在后端編程和前端設(shè)計領(lǐng)域。SWEET-RL 通過逐輪優(yōu)化決策，顯著提高了模型的任務(wù)完成率，并展示了其在開源模型（如 Llama-3.1-8B）與專有模型（如 GPT-4o）競爭中的潛力。

項(xiàng)目背景

援引博文介紹，大語言模型正逐漸演變?yōu)槟軌驁?zhí)行復(fù)雜任務(wù)的自主智能體，但在多輪決策任務(wù)中仍面臨挑戰(zhàn)。

傳統(tǒng)訓(xùn)練方法依賴于單輪反饋或模仿高概率行為，無法有效處理長期依賴和累積目標(biāo)。這導(dǎo)致模型在協(xié)作場景中表現(xiàn)不佳，特別是在理解人類意圖和多步驟推理方面。

SWEET-RL 的創(chuàng)新之處

SWEET-RL 采用非對稱的“演員-評論家”結(jié)構(gòu)，評論家在訓(xùn)練過程中可以訪問額外信息（如正確答案），從而更精確地評估演員的決策。

該框架直接建模逐輪的優(yōu)勢函數(shù)，簡化了信用分配過程，并與 LLMs 的預(yù)訓(xùn)練架構(gòu)更好地對齊。實(shí)驗(yàn)結(jié)果顯示，SWEET-RL 在后端編程任務(wù)中通過率提升至 48.0%，前端設(shè)計任務(wù)的余弦相似度達(dá)到 76.9%，顯著優(yōu)于其他多輪強(qiáng)化學(xué)習(xí)方法。

ColBench 基準(zhǔn)測試

ColBench 包含超過 10000 個訓(xùn)練任務(wù)和 1000 個測試案例，模擬真實(shí)的人機(jī)協(xié)作場景。任務(wù)設(shè)計涵蓋后端編程（如 Python 函數(shù)編寫）和前端設(shè)計（如 HTML 代碼生成），并限制每輪交互最多 10 次。

這一基準(zhǔn)測試通過單元測試通過率（代碼）和余弦相似度（設(shè)計）評估模型表現(xiàn)，為多輪任務(wù)提供了可靠的評估標(biāo)準(zhǔn)。

本文鏈接：http://www.tebozhan.com/showinfo-45-11623-0.htmlMeta 推出強(qiáng)化學(xué)習(xí)新框架 SWEET-RL，讓 AI 更懂人類意圖

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： AMD AI PC創(chuàng)新峰會盛況：蘇姿豐攜新品亮相，共繪AI生態(tài)新藍(lán)圖

下一篇：谷歌正在推出 Gemini 實(shí)時人工智能視頻功能

標(biāo)簽：

熱門焦點(diǎn)

錯過了BRC20還有eths,eth銘文協(xié)議

來源：三頭鳥NFT大家好，我是鳥哥，了解鳥哥的人都知道鳥哥擅擼空投，說實(shí)話擼毛雖然回報大但周期還是有點(diǎn)長的，所以除了擼毛我們自己也在研究早期項(xiàng)目，打新，比如BRC20協(xié)議ordi當(dāng)時就有
茅臺的元宇宙App火了，也被罵慘了

元宇宙從概念走向大眾生活，并不是一件簡單的事情。技術(shù)、世界觀、填充內(nèi)容、載體形式，每一個環(huán)節(jié)都需要層層疊疊的邏輯。但正如賽博朋克奠基人威廉·吉布
25萬虛擬er在“元宇宙”追星

“默嘰默嘰，我是默默醬，我是在真元宇宙也有頭有臉的人。”12月11日晚20：00，虛擬偶像@默默醬的首場個人元宇宙演唱會《以夢為馬，抵達(dá)繁星》在大有空間APP
NFT的未來：傳統(tǒng)企業(yè)與去中心化機(jī)構(gòu)之間的競賽

傳統(tǒng)企業(yè)和去中心化機(jī)構(gòu)一直存在分歧，但最近NFT的爆炸式增長讓他們產(chǎn)生了共同的興趣，雙方都在競相讓用戶更輕松、更方便地使用NFT。毫無疑問，NFT 市場正在增長。
上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

區(qū)塊鏈日報17日訊今日《元宇宙新鮮事》有：上海虹口將成立總額約10億元的元宇宙產(chǎn)業(yè)基金；香港市場首只元宇宙主題ETF擬于2月21日上市；元宇宙平臺Roblox出現(xiàn)違禁游
以太坊升級將會帶來的5個改變

以太坊自2015年誕生以來就廣受歡迎，但最近其昂貴的交易費(fèi)用和低可擴(kuò)展性對執(zhí)行復(fù)雜的應(yīng)用程序產(chǎn)生了負(fù)面作用，用戶對以太坊改進(jìn)的需求也日益急迫。以太坊2.0已進(jìn)
國內(nèi)涌現(xiàn)70余家數(shù)字藏品平臺：合規(guī)、流量與利潤在博弈

作者：楊鄭君2月16日，迅雷鏈企業(yè)數(shù)字藏品服務(wù)平臺正式上線，繼阿里、騰訊、京東、百度、網(wǎng)易等之后，又一家互聯(lián)網(wǎng)企業(yè)正式加入到火熱的數(shù)字藏品平臺的競爭中。除互聯(lián)
HTC Vive推出元宇宙平臺Viverse；騰訊投資小米生態(tài)鏈AR眼鏡廠商

今日熱點(diǎn)：HTC Vive正式推出元宇宙平臺Viverse；騰訊投資小米生態(tài)鏈AR眼鏡廠商北京蜂巢科技；面部追蹤和眼動追蹤是Quest下一版本的“重點(diǎn)”；索尼PSVR 2將推遲至2023
技術(shù)賦能，國內(nèi)首家寵物元宇宙平臺“Pet Meta”開啟虛擬養(yǎng)寵新方式

作者:易明未來，Pet Meta數(shù)字寵物藏品將是鏈接全球數(shù)億愛寵人群與元宇宙世界獨(dú)一無二的身份象征。首家面向國內(nèi)的寵物元宇宙平臺Pet Meta生長于“寵物經(jīng)濟(jì)”快速

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Meta 推出強(qiáng)化學(xué)習(xí)新框架 SWEET-RL，讓 AI 更懂人類意圖

錯過了BRC20還有eths,eth銘文協(xié)議

茅臺的元宇宙App火了，也被罵慘了

25萬虛擬er在“元宇宙”追星

NFT的未來：傳統(tǒng)企業(yè)與去中心化機(jī)構(gòu)之間的競賽

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

以太坊升級將會帶來的5個改變

國內(nèi)涌現(xiàn)70余家數(shù)字藏品平臺：合規(guī)、流量與利潤在博弈

HTC Vive推出元宇宙平臺Viverse；騰訊投資小米生態(tài)鏈AR眼鏡廠商

技術(shù)賦能，國內(nèi)首家寵物元宇宙平臺“Pet Meta”開啟虛擬養(yǎng)寵新方式

最新推薦

雷克薩斯高管，“受賄”5000萬？

NFT教育要從娃娃抓起！這些青少年藝術(shù)家已經(jīng)賺取了幾千萬美金

藝術(shù)創(chuàng)作者能否永久收取版稅？

GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

HTC Vive推出元宇宙平臺Viverse；騰訊投資小米生態(tài)鏈AR眼鏡廠商

76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

猜你喜歡

熱門推薦

相關(guān)資訊