當(dāng)前位置：首頁 > 元宇宙 > AI

OpenAI o1 AI 模型 PlanBench 規(guī)劃能力實(shí)測：準(zhǔn)確率 97.8%，遠(yuǎn)超 LLaMA 3.1 405B 創(chuàng)造的 62.6% 紀(jì)錄

來源：責(zé)編：時(shí)間：2024-09-27 16:34:57 98觀看

導(dǎo)讀 9 月 25 日消息，來自亞利桑那州立大學(xué)的科研團(tuán)隊(duì)利用 PlanBench 基準(zhǔn)，測試了 OpenAI o1 模型的規(guī)劃能力。研究結(jié)果表明 o1 模型取得了長足的進(jìn)步，但仍然存在很大的局限性。PlanBench 基準(zhǔn)簡介PlanBench 開發(fā)于 2

9 月 25 日消息，來自亞利桑那州立大學(xué)的科研團(tuán)隊(duì)利用 PlanBench 基準(zhǔn)，測試了 OpenAI o1 模型的規(guī)劃能力。研究結(jié)果表明 o1 模型取得了長足的進(jìn)步，但仍然存在很大的局限性。

PlanBench 基準(zhǔn)簡介

PlanBench 開發(fā)于 2022 年，用于評估人工智能系統(tǒng)的規(guī)劃能力，包括 600 個(gè)來自 Blocksworld 領(lǐng)域的任務(wù)，其中積木必須按照特定順序堆疊。

OpenAI o1 模型成績

在 Blocksworld 任務(wù)中，OpenAI 的 o1 模型準(zhǔn)確率達(dá)到 97.8%，大大超過了之前的最佳語言模型 LLaMA 3.1 405B（準(zhǔn)確率為 62.6%）。

在更具挑戰(zhàn)性的“Mystery Blocksworld”加密版本中，傳統(tǒng)模型幾乎全部失敗，而 OpenAI 的 o1 模型準(zhǔn)確率達(dá)到 52.8%。附上報(bào)告圖片如下：

研究人員還測試了一種新的隨機(jī)變體，以排除 o1 的性能可能源于其訓(xùn)練集中的基準(zhǔn)數(shù)據(jù)。在這次測試中，O1 的準(zhǔn)確率降至 37.3%，但仍遠(yuǎn)遠(yuǎn)超過了得分接近零的其它模型。

規(guī)劃步驟越多，性能下降越明顯

隨著任務(wù)越來越復(fù)雜，o1 的表現(xiàn)也急劇下降。在需要 20 到 40 個(gè)規(guī)劃步驟的問題上，o1 在較簡單測試中的準(zhǔn)確率從 97.8% 下降到只有 23.63%。

該模型在識別無法解決的任務(wù)方面也很吃力，只有 27% 的時(shí)間能夠正確識別。在 54% 的情況下，它錯(cuò)誤地生成了完整但不可能完成的計(jì)劃。

“Quantum improvement”，但并非突破性

雖然 o1 在基準(zhǔn)性能上實(shí)現(xiàn)了“量子改進(jìn)”（Quantum improvement），但它并不能保證解決方案的正確性。如快速向下算法等經(jīng)典的規(guī)劃算法，可以在更短的計(jì)算時(shí)間內(nèi)實(shí)現(xiàn)完美的準(zhǔn)確性。

研究還強(qiáng)調(diào)了 o1 的高資源消耗，運(yùn)行這些測試需要花費(fèi)近 1900 美元，而經(jīng)典算法在標(biāo)準(zhǔn)計(jì)算機(jī)上運(yùn)行幾乎不需要任何成本。

研究人員強(qiáng)調(diào)，對人工智能系統(tǒng)進(jìn)行公平比較必須考慮準(zhǔn)確性、效率、成本和可靠性。他們的研究結(jié)果表明，雖然像 o1 這樣的人工智能模型在復(fù)雜推理任務(wù)方面取得了進(jìn)步，但這些能力還不夠強(qiáng)大。

由媒體TheDecoder 使用 Midjourney 生成

本文鏈接：http://www.tebozhan.com/showinfo-45-7799-0.htmlOpenAI o1 AI 模型 PlanBench 規(guī)劃能力實(shí)測：準(zhǔn)確率 97.8%，遠(yuǎn)超 LLaMA 3.1 405B 創(chuàng)造的 62.6% 紀(jì)錄

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：微軟發(fā)布新工具，檢測和糾正 AI 幻覺內(nèi)容

下一篇：世嘉/ATLUS重磅來襲！東京電玩展直播，游戲迷們別錯(cuò)過！

標(biāo)簽：

熱門焦點(diǎn)

SQL Error: select * from ***_ecms_news13 where id in(272,144,30,,133,235,215,31,271) limit 9

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI o1 AI 模型 PlanBench 規(guī)劃能力實(shí)測：準(zhǔn)確率 97.8%，遠(yuǎn)超 LLaMA 3.1 405B 創(chuàng)造的 62.6% 紀(jì)錄

最新推薦

清華、北大等86所高校布局元宇宙，是風(fēng)口還是噱頭？

花房集團(tuán)上市，走向元宇宙新征程

中國銀保監(jiān)管委提示：謹(jǐn)慎投資，勿做接盤俠

Meta展示AI系統(tǒng)Builder Bot；《Pistol Whip》增加派對模式

NFT教育要從娃娃抓起！這些青少年藝術(shù)家已經(jīng)賺取了幾千萬美金

想進(jìn)入web3.0？來看看哪些工作適合你

猜你喜歡

熱門推薦

相關(guān)資訊