1 月 15 日消息,谷歌研究院日前使用自家 BIG-Bench 基準測試建立了一項“BIG-Bench Mistake”數據集,并利用相關數據集對市面上流行的語言模型“出錯概率”及“糾錯能力”進行了一系列評估研究。
谷歌研究人員表示,由于過去沒有能夠評估大語言模型“出錯概率”及“自我糾錯能力”的數據集,因此他們創建了一項名為“BIG-Bench Mistake”的專用基準數據集用于評估測試。
據悉,研究人員首先使用 PaLM 語言模型在自家 BIG-Bench 基準測試任務中運行了5項任務,之后將生成的“思維鏈(Chain-of-Thought)”軌跡修改加入“邏輯錯誤”部分,之后重新丟給模型判斷思維鏈軌跡中哪些地方存在錯誤。
為了提升數據集準確程度,谷歌研究人員反復進行上述過程,最終形成了一項內含“255 項邏輯錯誤”的“BIG-Bench Mistake”專用基準數據集。
研究人員提到,由于“BIG-Bench Mistake”數據集中的邏輯錯誤較為“簡單明確”,因此可以作為一個良好的測試標準,可協助語言模型先從簡單的邏輯錯誤開始練習,逐步提升辨識錯誤的能力。
研究人員利用該數據集對市面上模型進行測試,發現雖然絕大多數語言模型可以識別在推理過程中出現的邏輯錯誤并進行自我修正,但這個過程“并不夠理想”,通常需要人工干預來糾正模型輸出的內容。
從報告中發現,谷歌聲稱“目前最先進的大語言模型”自我糾錯能力也相對有限,在相關測試結果中成績發揮最好的模型,也僅僅找出了 52.9% 的邏輯錯誤。
谷歌研究人員同時聲稱,這一 BIG-Bench Mistake 數據集有利于改善模型自我糾錯能力,經過相關測試任務微調后的模型,“即便是小型模型表現也通常比零樣本提示的大模型更好”。
據此,谷歌認為在模型糾錯方面,可以使用專有小型模型“監督”大型模型,相對于讓大語言模型學會“糾正自我錯誤”,部署專用于監督大模型的小型專用模型有利于改善效率、降低相關AI 部署成本,并更便于微調。
本文鏈接:http://www.tebozhan.com/showinfo-45-3236-0.html可協助 AI 語言模型改善自我糾錯能力,谷歌推出 BIG-Bench Mistake 數據集
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com