AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

Meta 推出強化學習新框架 SWEET-RL,讓 AI 更懂人類意圖

來源: 責編: 時間:2025-03-25 10:04:18 30觀看
導讀 3 月 24 日消息,科技媒體 marktechpost 昨日(3 月 23 日)發布博文,報道稱 Meta AI 公司攜手加州大學伯克利分校,合作推出名為 SWEET-RL 的強化學習框架,并發布了 CollaborativeAgentBench(ColBench)基準測試。這一創

3 月 24 日消息,科技媒體 marktechpost 昨日(3 月 23 日)發布博文,報道稱 Meta AI 公司攜手加州大學伯克利分校,合作推出名為 SWEET-RL 的強化學習框架,并發布了 CollaborativeAgentBench(ColBench)基準測試。elg28資訊網——每日最新資訊28at.com

這一創新旨在提升大語言模型(LLMs)在多輪人機協作任務中的表現,特別是在后端編程和前端設計領域。SWEET-RL 通過逐輪優化決策,顯著提高了模型的任務完成率,并展示了其在開源模型(如 Llama-3.1-8B)與專有模型(如 GPT-4o)競爭中的潛力。elg28資訊網——每日最新資訊28at.com

項目背景

援引博文介紹,大語言模型正逐漸演變為能夠執行復雜任務的自主智能體,但在多輪決策任務中仍面臨挑戰。elg28資訊網——每日最新資訊28at.com

傳統訓練方法依賴于單輪反饋或模仿高概率行為,無法有效處理長期依賴和累積目標。這導致模型在協作場景中表現不佳,特別是在理解人類意圖和多步驟推理方面。elg28資訊網——每日最新資訊28at.com

SWEET-RL 的創新之處

SWEET-RL 采用非對稱的“演員-評論家”結構,評論家在訓練過程中可以訪問額外信息(如正確答案),從而更精確地評估演員的決策。elg28資訊網——每日最新資訊28at.com

elg28資訊網——每日最新資訊28at.com

該框架直接建模逐輪的優勢函數,簡化了信用分配過程,并與 LLMs 的預訓練架構更好地對齊。實驗結果顯示,SWEET-RL 在后端編程任務中通過率提升至 48.0%,前端設計任務的余弦相似度達到 76.9%,顯著優于其他多輪強化學習方法。elg28資訊網——每日最新資訊28at.com

elg28資訊網——每日最新資訊28at.com

ColBench 基準測試

ColBench 包含超過 10000 個訓練任務和 1000 個測試案例,模擬真實的人機協作場景。任務設計涵蓋后端編程(如 Python 函數編寫)和前端設計(如 HTML 代碼生成),并限制每輪交互最多 10 次。elg28資訊網——每日最新資訊28at.com

elg28資訊網——每日最新資訊28at.com

這一基準測試通過單元測試通過率(代碼)和余弦相似度(設計)評估模型表現,為多輪任務提供了可靠的評估標準。elg28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-11623-0.htmlMeta 推出強化學習新框架 SWEET-RL,讓 AI 更懂人類意圖

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: AMD AI PC創新峰會盛況:蘇姿豐攜新品亮相,共繪AI生態新藍圖

下一篇: 谷歌正在推出 Gemini 實時人工智能視頻功能

標簽:
  • 熱門焦點

猜你喜歡

    SQL Error: select * from ***_ecms_news13 where id in(,123,104,78,57,112) limit 6
Top