當前位置：首頁 > 元宇宙 > AI

OpenAI o1模型實測：PlanBench規劃能力，準確率高達97.8%！

來源：責編：時間：2024-09-25 16:50:30 107觀看

導讀【ITBEAR】9月25日消息，近日，亞利桑那州立大學的科研團隊利用PlanBench基準對OpenAI的o1模型進行了規劃能力的測試。測試結果顯示，盡管o1模型在某些方面取得了顯著的進步，但其仍然存在較大的局限性。PlanBench基準于2022

【ITBEAR】9月25日消息，近日，亞利桑那州立大學的科研團隊利用PlanBench基準對OpenAI的o1模型進行了規劃能力的測試。測試結果顯示，盡管o1模型在某些方面取得了顯著的進步，但其仍然存在較大的局限性。

PlanBench基準于2022年開發，主要用于評估人工智能系統在規劃方面的能力。該基準包含了600個來自Blocksworld領域的任務，要求積木必須按照特定的順序進行堆疊。

據ITBEAR了解，在Blocksworld任務中，OpenAI的o1模型展現出了驚人的表現，其準確率高達97.8%，遠遠超過了之前的最佳語言模型LLaMA 3.1 405B的62.6%。在更具挑戰性的“Mystery Blocksworld”加密版本中，傳統模型幾乎全部失敗，而o1模型的準確率仍能達到52.8%。

為了驗證o1模型的性能是否源于其訓練集中的基準數據，研究人員還測試了一種新的隨機變體。在這次測試中，o1模型的準確率降至37.3%，但仍遠超其他得分接近零的模型。

然而，隨著任務的復雜性增加，o1模型的表現也急劇下降。在需要20到40個規劃步驟的問題上，o1模型在較簡單測試中的準確率從97.8%驟降至23.63%。此外，該模型在識別無法解決的任務方面也顯得力不從心，只有27%的時間能夠正確識別，而在54%的情況下，它錯誤地生成了完整但不可能完成的計劃。

盡管o1模型在基準性能上實現了顯著的改進，但它并不能保證解決方案的正確性。與經典的規劃算法相比，如快速向下算法，這些算法可以在更短的計算時間內實現完美的準確性。

研究還指出，o1模型的高資源消耗是一個不容忽視的問題。運行這些測試需要花費近1900美元，而經典算法在標準計算機上運行則幾乎不需要任何成本。

研究人員強調，對人工智能系統進行公平比較時，必須綜合考慮準確性、效率、成本和可靠性。他們的研究結果表明，盡管像o1這樣的人工智能模型在復雜推理任務方面取得了進步，但這些能力仍然有待提升。

關鍵詞：#OpenAI o1模型# #規劃能力測試# #PlanBench基準# #局限性# #資源消耗#

本文鏈接：http://www.tebozhan.com/showinfo-45-7677-0.htmlOpenAI o1模型實測：PlanBench規劃能力，準確率高達97.8%！

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：明年4月，半價iPhone登場？搭載最新芯片引關注！

下一篇：百度百舸AI計算平臺4.0發布，模型訓練效率逼近極限？

標簽：

熱門焦點

元宇宙風口下，視覺中國如何重估？

要說橫跨2021年和2022年，到目前仍然很火的概念，元宇宙肯定要算一個。不僅互聯網巨頭們紛紛布局，上市公司們趨之若鶩，還被不少地方政府寫入了產業規劃，大有在2022年
企業熱、用戶冷，元宇宙第一站將是“營銷場”？

如果說2021年底什么最火熱，那元宇宙當之無愧。“萬物皆可元宇宙”似乎成為新的流行語，在廣告中也常常聽到“社交元宇宙”“購物元宇宙”等等。就在近日，有消息傳
2022 區塊鏈 50 強榜單；垃圾NFT項目的十三個特性

本期關鍵字TerraZero在Decentraland完成元宇宙住房抵押貸款；騰訊發行齊白石畫作數字藏品；Ripple成為數字歐元協會成員；Gem上線稀有度排名功能；2022 區塊鏈 50 強榜
超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

2 月 13 日，美東時間 18:30，有著“美國春晚”之譽的超級碗（Super Bowl）落下帷幕。超級碗是美國國家美式足球聯盟（也稱為國家橄欖球聯盟）的年度冠軍賽，勝者將成為“世
2022年的Web3：定義概念并開創新范式

Web3 是關于加密和區塊鏈應該如何使用的概念，因為它是加密圈的一個離散子領域。社區機會將呈指數級增長，擴大這些子行業的人口統計范圍。追求 Web3 項目的組織仍
以太坊升級將會帶來的5個改變

以太坊自2015年誕生以來就廣受歡迎，但最近其昂貴的交易費用和低可擴展性對執行復雜的應用程序產生了負面作用，用戶對以太坊改進的需求也日益急迫。以太坊2.0已進
元宇宙平臺會是上世紀末的互聯網嗎？

“元宇宙”火了好幾個月，互聯網大廠忙于布局，資本市場熱烈追捧。然而很多人還是看不明白，更多的人覺得這是一場泡沫，一場騙局。一開始接觸這個怪里怪氣的名詞，感覺
Steam 禁止NFT和加密貨幣原因曝光

近日，Valve（V社）總裁Gabe Newell接受PC Gamer采訪時解釋了該平臺禁止NFT和加密貨幣的原因。早在2021年10月18日，PC Gamer就報道Steam推出的新規：使用區塊鏈或允許交
超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

在2021年《福布斯》區塊鏈50強榜單中，29家企業使用Hyperledger超級賬本技術，占比近60%。同年，研究機構Blockdata發布了的調查報告顯示，訪問Top100上市公司中，有 81

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI o1模型實測：PlanBench規劃能力，準確率高達97.8%！

元宇宙風口下，視覺中國如何重估？

企業熱、用戶冷，元宇宙第一站將是“營銷場”？

2022 區塊鏈 50 強榜單；垃圾NFT項目的十三個特性

超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

2022年的Web3：定義概念并開創新范式

以太坊升級將會帶來的5個改變

元宇宙平臺會是上世紀末的互聯網嗎？

Steam 禁止NFT和加密貨幣原因曝光

超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

最新推薦

星展銀行(DBS)計劃推出零售數字資產交易服務

城市數字孿生標準化白皮書（2022版）

百度元宇宙希壤是什么？（附下載）

2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

a16z：元宇宙辦公會取代實體辦公室嗎？

GameFi 深度解析，元宇宙內容雛形顯現

猜你喜歡

熱門推薦

相關資訊