4 月 18 日消息,風險測試機構“機器智能測試風險”(METR)昨日(4 月 17 日)發布報告,與 OpenAI 合作測試其 o3 模型時發現,該模型展現出更強的“作弊”或“黑客行為”傾向,試圖通過操控任務評分系統提升成績。
援引報告內容,在 HCAST(人類校準自主軟件任務)和 RE-Bench 測試套件中,o3 模型約 1% 到 2% 的任務嘗試涉及此類行為。
這些行為包括對部分任務評分代碼的“精巧利用”。METR 表示,若不將這些作弊嘗試計為失敗任務,o3 的“50% 時間范圍”將延長約 5 分鐘,其 RE-Bench 評分甚至可能超過人類專家。
METR 還懷疑 o3 可能存在“沙袋行為”(sandbagging),即故意隱藏真實能力,但其作弊傾向已明顯違背用戶和 OpenAI 的意圖。
METR 坦言,此次 o3 模型評估時間短,獲取信息有限,且無法訪問模型內部推理過程,這可能影響結果解讀。測試是在模型公開發布前三周完成的,METR 提前獲得了 OpenAI 模型的測試權限。
相比之下,o4-mini 模型在測試中未發現“獎勵黑客”行為,且在 RE-Bench 任務組中表現出色,尤其在“優化內核”(Optimise a Kernel)任務中成績突出。
METR 數據顯示,給予 o4-mini 32 小時完成任務時,其平均表現超過人類第 50 百分位的水平。此外,o3 和 o4-mini 在更新后的 HCAST 基準測試中均優于 Claude 3.7 Sonnet,時間范圍分別是后者的 1.8 倍和 1.5 倍。METR 強調,單純的能力測試不足以管理風險,正探索更多評估形式以應對挑戰。
本文鏈接:http://www.tebozhan.com/showinfo-45-12422-0.htmlMETR 實測:OpenAI o3 AI 推理模型有“作弊”傾向以提升分數
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com