當前位置：首頁 > 元宇宙 > AI

OpenAI 開源 SimpleQA 新基準，專治大模型“胡言亂語”

來源：責編：時間：2024-11-04 07:21:05 86觀看

導讀 10 月 31 日消息，當地時間 30 日，OpenAI 宣布，為了衡量語言模型的準確性，將開源一個名為 SimpleQA 的新基準，可衡量語言模型回答簡短的事實尋求（fact-seeking）問題的能力。AI 領域中的一個開放性難題是如何訓練模型

10 月 31 日消息，當地時間 30 日，OpenAI 宣布，為了衡量語言模型的準確性，將開源一個名為 SimpleQA 的新基準，可衡量語言模型回答簡短的事實尋求（fact-seeking）問題的能力。

AI 領域中的一個開放性難題是如何訓練模型生成事實正確的回答。當前的語言模型有時會產生錯誤輸出或未經證實的答案，這一問題被稱為“幻覺”。能夠生成更準確、更少幻覺的回答的語言模型更為可靠，可以用于更廣泛的應用領域。

OpenAI 表示，目標是使用 SimpleQA 創建一個具備以下特點的數據集：

高正確性：問題的參考答案由兩名獨立的 AI 訓練師驗證，以確保評分的公正性。

多樣性：SimpleQA 涵蓋廣泛主題，從科學技術到電視節目與電子游戲應有盡有。

前沿挑戰性：與 TriviaQA（2017 年）或 NQ（2019 年）等早期基準相比，SimpleQA 更具挑戰性，尤其針對如 GPT-4o 等前沿模型（例如，GPT-4o 的得分不足 40%）。

高效用戶體驗：SimpleQA 問題與答案簡潔明了，使操作快速高效，并可通過 OpenAI API 等進行快速評分。此外，包含 4326 道問題的 SimpleQA 在評估中應具有較低的方差。

SimpleQA 將是一個簡單但具有挑戰性的基準，用于評估前沿模型的事實準確性。SimpleQA 的主要限制在于其范圍 —— 盡管 SimpleQA 準確，但它只在短查詢的受限設置中測量事實準確性，這些查詢是事實導向的，并且有一個可驗證的答案。

OpenAI 表示，模型在短回答中表現出的事實性是否與其在長篇、多事實內容中的表現相關，這仍是個懸而未決的研究課題。其希望 SimpleQA 的開源能夠進一步推動 AI 研究的發展，使模型更加可信并富有可靠性。

附有關地址：

開源鏈接：https://github.com/openai/simple-evals/

論文：https://cdn.openai.com/papers/simpleqa.pdf

本文鏈接：http://www.tebozhan.com/showinfo-45-9377-0.htmlOpenAI 開源 SimpleQA 新基準，專治大模型“胡言亂語”

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：扎克伯格押注 AI：Meta 正推動美國政府使用其 Llama 模型

下一篇：全球首個開源 AI 標準發布，微軟、谷歌、亞馬遜、Meta、英特爾、三星等巨頭制定

標簽：

熱門焦點

ChatGPT訪問量增速下滑，AI真的是一場泡沫嗎？

來源：首席商業評論2023年，最火的莫過于ChatGPT，席卷全球的同時也引發了生成式AI（人工智能）的投資熱潮。在美股，ChatGPT相關概念股飆漲，以AI算力龍頭英偉達為例，其股價年內一度累計上
2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

傳感器是由敏感元件和轉換元件構成，能夠感受規定的檢測量(物理量、化學量、生物量等)，并按照一定規律將檢測量轉化成可用的輸出信號的器件和裝置，進而滿足信息的
與元宇宙美少女藝術家的對話

我最近宣布了我自己的NFT項目，這是我已經工作了幾個月的事情。由于我之前只是一個收藏家，擁有自己的項目真的給了我一個新的視角來看待這個領域。我一直歡迎人們
NFT世界的藝術家名單

我們匯編了以下藝術家的名單，它包括每個藝術家的簡短概述。當然，這份名單肯定不全面，還有很多很多藝術家、哲學家和商業領袖為世界貢獻了不可估量的價值。而他們
在元宇宙開會是什么樣一種體驗

空間就是一切還記得面對面的會議嗎？就在不久前，與會者需要飛到遙遠的目的地，并進行鼓舞人心的對話、網絡、免費食物，甚至可能會有一兩個很好的小組討論。隨之而來
又一家數字營銷公司入局元宇宙，國內首個藝術元宇宙社區“Meta彼岸”上線

作者：董宇佳2月28日，智度股份在北京舉辦產品發布會，宣布其與國光電器聯手打造的國內首個藝術元宇宙社區——“Meta彼岸”在VR端和移動端正式公測。從科技巨頭布局
頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

特別聲明，我們的文章不作為投資建議，請各位讀者獨立思考，還是那句話：投資要慎之又慎，誰也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
百度虛擬人——AI手語主播首次亮相冬奧會！

除了火遍全國的冰墩墩，虛擬人也成為這屆冬奧會的一大亮點元素。以體育明星谷愛凌為原型的數智人Meet Gu最先亮相。在2月5日谷愛凌首秀、2月7日谷愛凌首金的兩天

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 開源 SimpleQA 新基準，專治大模型“胡言亂語”

ChatGPT訪問量增速下滑，AI真的是一場泡沫嗎？

10億基金，李彥宏呼喚下一個AI獨角獸

2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

與元宇宙美少女藝術家的對話

NFT世界的藝術家名單

在元宇宙開會是什么樣一種體驗

又一家數字營銷公司入局元宇宙，國內首個藝術元宇宙社區“Meta彼岸”上線

頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

百度虛擬人——AI手語主播首次亮相冬奧會！

最新推薦

超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

2022年最具關注的9個頭像NFT項目

以太坊升級將會帶來的5個改變

Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

對諷刺無動于衷，Nori將碳市場放在區塊鏈上

技術賦能，國內首家寵物元宇宙平臺“Pet Meta”開啟虛擬養寵新方式

猜你喜歡

熱門推薦

相關資訊