4 月 19 日消息,OpenAI 最新發(fā)布的 o3 和 o4-mini 模型在多個(gè)方面展現(xiàn)出業(yè)內(nèi)領(lǐng)先的水準(zhǔn),不過(guò),這兩款模型依然無(wú)法擺脫“幻覺(jué)”問(wèn)題 —— 甚至比以往發(fā)布的模型更加嚴(yán)重。
據(jù)外媒 TechCrunch 今日?qǐng)?bào)道,幻覺(jué)問(wèn)題一直是生成式 AI 發(fā)展過(guò)程中最難解決的挑戰(zhàn)之一,即使是目前性能最優(yōu)秀的模型也難以完全避免。過(guò)去,每一代新模型在降低幻覺(jué)頻率方面通常都會(huì)取得小幅進(jìn)步,但 o3 和 o4-mini 卻打破了這一趨勢(shì)。
根據(jù) OpenAI 的內(nèi)部測(cè)試,作為推理模型的 o3 和 o4-mini,出現(xiàn)幻覺(jué)的頻率不僅超過(guò)了前代推理模型 o1、o1-mini 和 o3-mini,甚至還高于傳統(tǒng)“非推理”模型(注:如 GPT-4o)。
OpenAI 在針對(duì)這兩款模型發(fā)布的技術(shù)報(bào)告中表示:“要弄清楚隨著推理模型規(guī)模的擴(kuò)大,幻覺(jué)問(wèn)題為何反而變得更加嚴(yán)重,還需要進(jìn)一步研究。”報(bào)告指出,盡管 o3 和 o4-mini 在編程和數(shù)學(xué)等任務(wù)上的表現(xiàn)優(yōu)于以往,但由于模型輸出的答案總量增加,導(dǎo)致其既能作出更多準(zhǔn)確判斷,同時(shí)也不可避免地出現(xiàn)更多錯(cuò)誤甚至幻覺(jué)。
在 OpenAI 設(shè)計(jì)的內(nèi)部基準(zhǔn)測(cè)試 PersonQA 中,o3 回答問(wèn)題時(shí)出現(xiàn)幻覺(jué)的比例達(dá)到 33%,幾乎是前代推理模型 o1 和 o3-mini 的兩倍,后者的幻覺(jué)率分別為 16% 和 14.8%。在同一測(cè)試中,o4-mini 的表現(xiàn)更差,幻覺(jué)率高達(dá) 48%。
第三方機(jī)構(gòu) Transluce 的測(cè)試也印證了這一問(wèn)題。這家非營(yíng)利 AI 研究實(shí)驗(yàn)室發(fā)現(xiàn),o3 在回答問(wèn)題時(shí)經(jīng)常會(huì)憑空捏造出某些“過(guò)程操作”。例如,Transluce 曾觀察到,o3 聲稱自己在一臺(tái) 2021 款 MacBook Pro 上“在 ChatGPT 之外”運(yùn)行了代碼,并將結(jié)果復(fù)制進(jìn)了答案中。實(shí)際上,雖然 o3 擁有一部分工具訪問(wèn)權(quán)限,但并不具備執(zhí)行這種操作的能力。
OpenAI 發(fā)言人 Niko Felix 表示:“解決幻覺(jué)問(wèn)題是我們一直在推進(jìn)的重點(diǎn)研究方向,我們也在不斷努力提升模型的準(zhǔn)確性與可靠性。”
本文鏈接:http://www.tebozhan.com/showinfo-45-12416-0.htmlOpenAI 新推理模型被曝產(chǎn)生更多“幻覺(jué)”,o3 o4-mini 性能與錯(cuò)誤率一同提升
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 創(chuàng)投熱點(diǎn)速覽:云鯨融資、霸王茶姬上市與遇見(jiàn)小面沖刺港股等
下一篇: 一張圖 + 一句話實(shí)現(xiàn)任意角色場(chǎng)景姿勢(shì),騰訊混元宣布開(kāi)源定制化圖像生成插件 InstantCharacter