當前位置：首頁 > 元宇宙 > AI

OpenAI 新推理模型被曝產生更多“幻覺”，o3 o4-mini 性能與錯誤率一同提升

來源：責編：時間：2025-04-21 09:45:17 77觀看

導讀 4 月 19 日消息，OpenAI 最新發布的 o3 和 o4-mini 模型在多個方面展現出業內領先的水準，不過，這兩款模型依然無法擺脫“幻覺”問題 —— 甚至比以往發布的模型更加嚴重。據外媒 TechCrunch 今日報道，幻覺問題一直

4 月 19 日消息，OpenAI 最新發布的 o3 和 o4-mini 模型在多個方面展現出業內領先的水準，不過，這兩款模型依然無法擺脫“幻覺”問題 —— 甚至比以往發布的模型更加嚴重。

據外媒 TechCrunch 今日報道，幻覺問題一直是生成式 AI 發展過程中最難解決的挑戰之一，即使是目前性能最優秀的模型也難以完全避免。過去，每一代新模型在降低幻覺頻率方面通常都會取得小幅進步，但 o3 和 o4-mini 卻打破了這一趨勢。

根據 OpenAI 的內部測試，作為推理模型的 o3 和 o4-mini，出現幻覺的頻率不僅超過了前代推理模型 o1、o1-mini 和 o3-mini，甚至還高于傳統“非推理”模型（注：如 GPT-4o）。

OpenAI 在針對這兩款模型發布的技術報告中表示：“要弄清楚隨著推理模型規模的擴大，幻覺問題為何反而變得更加嚴重，還需要進一步研究。”報告指出，盡管 o3 和 o4-mini 在編程和數學等任務上的表現優于以往，但由于模型輸出的答案總量增加，導致其既能作出更多準確判斷，同時也不可避免地出現更多錯誤甚至幻覺。

在 OpenAI 設計的內部基準測試 PersonQA 中，o3 回答問題時出現幻覺的比例達到 33%，幾乎是前代推理模型 o1 和 o3-mini 的兩倍，后者的幻覺率分別為 16% 和 14.8%。在同一測試中，o4-mini 的表現更差，幻覺率高達 48%。

第三方機構 Transluce 的測試也印證了這一問題。這家非營利 AI 研究實驗室發現，o3 在回答問題時經常會憑空捏造出某些“過程操作”。例如，Transluce 曾觀察到，o3 聲稱自己在一臺 2021 款 MacBook Pro 上“在 ChatGPT 之外”運行了代碼，并將結果復制進了答案中。實際上，雖然 o3 擁有一部分工具訪問權限，但并不具備執行這種操作的能力。

OpenAI 發言人 Niko Felix 表示：“解決幻覺問題是我們一直在推進的重點研究方向，我們也在不斷努力提升模型的準確性與可靠性。”

本文鏈接：http://www.tebozhan.com/showinfo-45-12416-0.htmlOpenAI 新推理模型被曝產生更多“幻覺”，o3 o4-mini 性能與錯誤率一同提升

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：創投熱點速覽：云鯨融資、霸王茶姬上市與遇見小面沖刺港股等

下一篇：一張圖 + 一句話實現任意角色場景姿勢，騰訊混元宣布開源定制化圖像生成插件 InstantCharacter

標簽：

熱門焦點

元宇宙終究沒火過兩年

來源：傳播體操在ChatGPT快速破圈的同時，元宇宙的熱度卻一瀉千里。雖然互聯網大廠們都沒有否認元宇宙的長期想象力，但在行動上卻都紛紛表示了對元宇宙短期前景的悲觀。號稱改變
關于年度熱詞NFT，除了錢，我們還可以聊點啥？

每到年底，社交媒體總少不了年度盤點、年度總結、年度熱詞。如果讓你來總結2021年度熱詞，你會想到什么？柯林斯詞典將年度熱詞頒給了“NFT”，而其理由是：一個縮寫詞的
中國虛擬數字人如何橫向拓展市場需求，探索發展場景?

通過5G、AI等新技術更新換代，虛擬數字人為諸多下游行業帶來新的發展機會。虛擬數字人技術以其簡化性和精品性持續拓展泛娛樂、金融、教育、政務、醫療、零售等
NFT的未來：傳統企業與去中心化機構之間的競賽

傳統企業和去中心化機構一直存在分歧，但最近NFT的爆炸式增長讓他們產生了共同的興趣，雙方都在競相讓用戶更輕松、更方便地使用NFT。毫無疑問，NFT 市場正在增長。
多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰場？

2月21日，2022中國·金魚嘴元宇宙生態賦能大會在南京建鄴區金魚嘴基金街區舉辦，南京建鄴區金魚嘴基金街區宣布計劃出資1億元，支持元宇宙行業發展。同時，會上發布了
“我沒搞懂元宇宙，但一天能賺9w塊”

作者：鄭宇軒最近幾個月，“元宇宙”爆火，除了 Facebook 改名為 Meta 高調進軍元宇宙外， BAT 為代表的大廠紛紛著手“元宇宙”新業務。剎那之間，元宇宙成為新風口，除了
元宇宙平臺會是上世紀末的互聯網嗎？

“元宇宙”火了好幾個月，互聯網大廠忙于布局，資本市場熱烈追捧。然而很多人還是看不明白，更多的人覺得這是一場泡沫，一場騙局。一開始接觸這個怪里怪氣的名詞，感覺
多位全國政協委員提交元宇宙提案，國金證券稱元宇宙仍處初期投資階段

財聯社|區塊鏈日報2日訊今日《元宇宙新鮮事》有：全國政協委員劉偉建議出臺“元宇宙中國”的頂層設計方案；國金證券稱元宇宙仍處初期投資龐大獲利不易階段；阿聯酋
PayPal CEO 的加密語錄：加密貨幣將重新定義金融世界

PayPal 近年來一直是加密行業的倡導者。這個本身擁有超過 3.5 億名活躍用戶的支付巨頭，已經允許美國和英國的用戶交易或持有比特幣（BTC）、以太坊（ETH）、比特現金（BCH

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 新推理模型被曝產生更多“幻覺”，o3 o4-mini 性能與錯誤率一同提升

元宇宙終究沒火過兩年

關于年度熱詞NFT，除了錢，我們還可以聊點啥？

中國虛擬數字人如何橫向拓展市場需求，探索發展場景?

NFT的未來：傳統企業與去中心化機構之間的競賽

多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰場？

“我沒搞懂元宇宙，但一天能賺9w塊”

元宇宙平臺會是上世紀末的互聯網嗎？

多位全國政協委員提交元宇宙提案，國金證券稱元宇宙仍處初期投資階段

PayPal CEO 的加密語錄：加密貨幣將重新定義金融世界

最新推薦

AI網紅能年賺百萬，普通人的新機會來了？

中國銀保監管委提示：謹慎投資，勿做接盤俠

影響元宇宙土地價格的五個因素

Meta 在衰落嗎？

NFT高玩必備：NFT分析工具大盤點

百度虛擬人——AI手語主播首次亮相冬奧會！

猜你喜歡

熱門推薦

相關資訊