當前位置：首頁 > 元宇宙 > AI

Meta 推出 J1 系列模型：革新 LLM-as-a-Judge，打造最強“AI 法官”

來源：責編：時間：2025-05-24 11:06:52 64觀看

導讀 5 月 22 日消息，科技媒體 marktechpost 昨日（5 月 21 日）發布博文，報道稱 Meta 公司推出 J1 系列模型，通過強化學習和合成數據訓練，顯著提升判斷模型準確性和公平性。項目背景大型語言模型（LLM）正在突破傳統角色，逐步

5 月 22 日消息，科技媒體 marktechpost 昨日（5 月 21 日）發布博文，報道稱 Meta 公司推出 J1 系列模型，通過強化學習和合成數據訓練，顯著提升判斷模型準確性和公平性。

項目背景

大型語言模型（LLM）正在突破傳統角色，逐步承擔起評估與判斷的重任。這種“LLM-as-a-Judge”的模式，讓 AI 模型能夠審查其他語言模型的輸出，成為強化學習、基準測試和系統對齊的重要工具。

不同于傳統的獎勵模型直接打分，判斷模型通過內部鏈式推理（chain-of-thought reasoning）模擬人類思考，特別適合數學解題、倫理推理和用戶意圖解讀等復雜任務，還能跨語言和領域驗證回應，推動語言模型開發的自動化和擴展性。

不過“LLM-as-a-Judge”模式目前面臨的挑戰是一致性差和推理深度不足，許多系統依賴基本指標或靜態標注，無法有效評估主觀或開放性問題；另一個問題就是位置偏見（position bias）答案順序常影響最終判斷，損害公平性。

此外，大規模收集人工標注數據成本高昂且耗時，限制了模型的泛化能力。EvalPlanner 和 DeepSeek-GRM 等現有解決方案依賴人工標注或僵化訓練模式，適應性有限。

J1 模型的創新突破

為解決上述問題，Meta 的 GenAI 和 FAIR 團隊研發了 J1 模型。J1 通過強化學習框架訓練，采用可驗證的獎勵信號學習，使用 22000 個合成偏好對（包括 17000 個 WildChat 語料和 5000 個數學查詢）構建數據集，訓練出 J1-Llama-8B 和 J1-Llama-70B 兩款模型。

團隊還引入 Group Relative Policy Optimization（GRPO）算法，簡化訓練過程，并通過位置無關學習（position-agnostic learning）和一致性獎勵機制消除位置偏見。

J1 支持多種判斷格式，包括成對判斷、評分和單項評分，展現出極高的靈活性和通用性。

測試結果顯示，J1 模型性能大幅領先。在 PPE 基準測試中，J1-Llama-70B 準確率達 69.6%，超越 DeepSeek-GRM-27B（67.2%）和 EvalPlanner-Llama-70B（65.6%）；即便是較小的 J1-Llama-8B，也以 62.2% 的成績擊敗 EvalPlanner-Llama-8B（55.5%）。

J1 還在 RewardBench、JudgeBench 等多個基準測試中展現出頂級表現，證明其在可驗證和主觀任務上的強大泛化能力，表明推理質量而非數據量，是判斷模型精準的關鍵。

本文鏈接：http://www.tebozhan.com/showinfo-45-13122-0.htmlMeta 推出 J1 系列模型：革新 LLM-as-a-Judge，打造最強“AI 法官”

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：谷歌創意利器 Canvas 升級 Gemini 2.5：降低開發門檻，AI 多樣化呈現文本內容

下一篇：熱車秘籍：轉速還是水溫？掌握正確方法，愛車更長壽！

標簽：

熱門焦點

新周期，誰在堅守窄門？

來源：錦緞今日的投資者恐怕已經忘記了，在OpenAI創造出ChatGPT這一殺器的前夜，生成式AI也曾經是一道窄門，窄到連馬斯克都差點失去了信心。在當時的輿論眼中，AGI的道路不夠性感，不夠
元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

來源：清元宇宙炎炎夏日努力工作的Q仔的電腦都冒煙兒啦～今天要給大家介紹兩個新小伙伴——小元和小媧，他們將給大家解讀元媧2.7版本重磅更新內容～大家掌聲歡迎～～～本次更
AI特效、虛擬人、數字盲盒，來看看元宇宙如何融合冬奧會！

今天是冬奧會比賽的第12天，截至目前所累計的成績，中國代表團已經取得了冬奧歷史最佳戰績。全世界的人都在關注著這場盛事，為奧運健兒吶喊助威。谷愛凌、徐夢桃、
2022年6款最佳的NFT稀有度查詢工具

NFT正在風靡全球，但擁有一個你自認為看起來很酷的 NFT 是不夠的，因為它還應該是稀有的，稀有度會影響每個 NFT 的價值。因此，如果您打算投資 NFT，則需要使用 NFT 稀
元宇宙“概念股”集體崩塌，背后究竟發生了什么？

近期，Roblox和Meta公布了第四季度的財務報告，在財報發布一日后，股價大跌。作為市值一度超過1萬億美元的世界第六大公司Meta，股價大跌4%，市值降至5650億美元，甚至跌出
a16z：元宇宙辦公會取代實體辦公室嗎？

6位不同的專家對未來的工作發表看法----元宇宙--沉浸式的、基于區塊鏈的虛擬世界，大多數日常活動最終會在這里發生--但仍然只是一個概念。但它是一個擁有寶貴不
Staking 收益翻倍？

以太坊質押可能很快就會有兩倍的利潤。Coinbase 估計，在 1 月份以太坊網絡合并后，持有 ETH 的回報將翻倍。增長預期假設來自加密貨幣交易所 Coinbase 的估計是準
冬奧會數字收藏品升溫，市場再現“一墩難求”

根據公開信息顯示，國際奧委會官方授權的冰墩墩數字盲盒于北京時間2月12日凌晨在nWayPlay平臺發售，總數為500個，每個99美元，每人限購5個。此外，不同的奧運徽章數字藏
爆發在即的Layer2賽道百花齊放，誰將是領跑者？

還記得幾年前最早我們提起ETH擴容，首先想到就是Layer2，而Layer2里，首先想到的是閃電網絡，狀態通道，Plasma…然后折騰了幾年，發現并沒有什么用，許多項目方和資本也等不

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Meta 推出 J1 系列模型：革新 LLM-as-a-Judge，打造最強“AI 法官”

新周期，誰在堅守窄門？

元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

AI特效、虛擬人、數字盲盒，來看看元宇宙如何融合冬奧會！

2022年6款最佳的NFT稀有度查詢工具

元宇宙“概念股”集體崩塌，背后究竟發生了什么？

a16z：元宇宙辦公會取代實體辦公室嗎？

Staking 收益翻倍？

冬奧會數字收藏品升溫，市場再現“一墩難求”

爆發在即的Layer2賽道百花齊放，誰將是領跑者？

最新推薦

AI網紅能年賺百萬，普通人的新機會來了？

如何對一款 NFT 項目進行價值評估？

“我沒搞懂元宇宙，但一天能賺9w塊”

紐約街頭出現NFT自動販賣機

NFT也有黃牛？這家公司專門對付外掛作弊機器人

費城藝術家使用區塊鏈，在數字藝術中狠狠撈一筆

猜你喜歡

熱門推薦

相關資訊