AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

OpenAI o1模型實測:PlanBench規劃能力,準確率高達97.8%!

來源: 責編: 時間:2024-09-25 16:50:30 70觀看
導讀【ITBEAR】9月25日消息,近日,亞利桑那州立大學的科研團隊利用PlanBench基準對OpenAI的o1模型進行了規劃能力的測試。測試結果顯示,盡管o1模型在某些方面取得了顯著的進步,但其仍然存在較大的局限性。PlanBench基準于2022

【ITBEAR】9月25日消息,近日,亞利桑那州立大學的科研團隊利用PlanBench基準對OpenAI的o1模型進行了規劃能力的測試。測試結果顯示,盡管o1模型在某些方面取得了顯著的進步,但其仍然存在較大的局限性。wYE28資訊網——每日最新資訊28at.com

PlanBench基準于2022年開發,主要用于評估人工智能系統在規劃方面的能力。該基準包含了600個來自Blocksworld領域的任務,要求積木必須按照特定的順序進行堆疊。wYE28資訊網——每日最新資訊28at.com

據ITBEAR了解,在Blocksworld任務中,OpenAI的o1模型展現出了驚人的表現,其準確率高達97.8%,遠遠超過了之前的最佳語言模型LLaMA 3.1 405B的62.6%。在更具挑戰性的“Mystery Blocksworld”加密版本中,傳統模型幾乎全部失敗,而o1模型的準確率仍能達到52.8%。wYE28資訊網——每日最新資訊28at.com

為了驗證o1模型的性能是否源于其訓練集中的基準數據,研究人員還測試了一種新的隨機變體。在這次測試中,o1模型的準確率降至37.3%,但仍遠超其他得分接近零的模型。wYE28資訊網——每日最新資訊28at.com

然而,隨著任務的復雜性增加,o1模型的表現也急劇下降。在需要20到40個規劃步驟的問題上,o1模型在較簡單測試中的準確率從97.8%驟降至23.63%。此外,該模型在識別無法解決的任務方面也顯得力不從心,只有27%的時間能夠正確識別,而在54%的情況下,它錯誤地生成了完整但不可能完成的計劃。wYE28資訊網——每日最新資訊28at.com

盡管o1模型在基準性能上實現了顯著的改進,但它并不能保證解決方案的正確性。與經典的規劃算法相比,如快速向下算法,這些算法可以在更短的計算時間內實現完美的準確性。wYE28資訊網——每日最新資訊28at.com

研究還指出,o1模型的高資源消耗是一個不容忽視的問題。運行這些測試需要花費近1900美元,而經典算法在標準計算機上運行則幾乎不需要任何成本。wYE28資訊網——每日最新資訊28at.com

研究人員強調,對人工智能系統進行公平比較時,必須綜合考慮準確性、效率、成本和可靠性。他們的研究結果表明,盡管像o1這樣的人工智能模型在復雜推理任務方面取得了進步,但這些能力仍然有待提升。wYE28資訊網——每日最新資訊28at.com

關鍵詞:#OpenAI o1模型# #規劃能力測試# #PlanBench基準# #局限性# #資源消耗#wYE28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-7677-0.htmlOpenAI o1模型實測:PlanBench規劃能力,準確率高達97.8%!

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 明年4月,半價iPhone登場?搭載最新芯片引關注!

下一篇: 百度百舸AI計算平臺4.0發布,模型訓練效率逼近極限?

標簽:
  • 熱門焦點
  • 從科幻走進現實,元宇宙概念逐漸清晰

    2021年,元宇宙概念如同一顆炸彈投進互聯網行業,掀起了一場數字海嘯,眾多企業紛紛入局,在此新領域展開新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻紅,元宇宙走進資本圈2021年3
  • 花房集團上市,走向元宇宙新征程

    文 | 港股研究社作者 | 熊生12月12日,花房集團在港交所成功上市,首日便受到追捧,當日最高漲幅達28.75%。繼360、360數科、魯大師后,這是“紅衣教主”周
  • 林俊杰、余文樂等明星相繼入局,元宇宙虛擬土地究竟有何魔力?

    上周的元宇宙和明星圈因為一則“林俊杰在推特上宣布持有Decentraland元宇宙虛擬地塊”的新聞而備受關注,該新聞一方面在娛樂圈引起了吃瓜群眾的好奇,另一方面在
  • 搭上“谷愛凌”,“柳夜熙們”站上風口?

    作者:張琳 曹楊從“永不塌房”的藝人到頻頻亮相北京冬奧會,作為元宇宙細分賽道之一的虛擬數字人又火了一把。2月7日,即谷愛凌摘得冬奧會自由式滑雪大跳臺金牌的
  • 萬字專訪Vitalik Buterin:以太坊將成為主流和最安全的基礎層

    Vitalik Buterin 在 19 歲時撰寫了以太坊白皮書。他的目標簡單而全面,即創建一個“世界計算機”,旨在成為所有在線應用程序的靈活基礎層,無需任何第三方。自 2015
  • 《刀劍神域》VR展開幕;《Puzzling Places》發布第二個付費DLC

    今日熱點:《刀劍神域:Ex-Chronicle Online Edition》VR展開幕;虛擬活動平臺EventX再獲800萬美元B輪融資;VR射擊游戲《Outlier》確認將于3月17日登陸Steam平臺等。
  • Terra鏈上TVL躍升至第二

    據DefiLlama數據顯示,當前,Terra鏈上應用鎖倉的加密資產價值(TVL)為172.1億美元,在公鏈板塊中已躍升至第二,超越了幣安智能鏈TVL的118億美元,TVL排名居首的仍為以太
  • 元宇宙風歸何處?

    元宇宙持續大火,在過去一段時間內,其屢次登上熱點,吸引了一波又一波投資者。近期,在“2022中國·金魚嘴元宇宙生態賦能大會”上,南京建鄴區金魚嘴基金街區宣布計劃
  • Interface正大光明的“跑路”,社區成員贊格局大

    今日凌晨,一個廣泛受社區期待的潛力藍籌項目Interfaces突然發文宣布項目停止運營,后續也不會有鑄造NFT系列的活動。這對社區來說就是一重磅炸彈,大多數人完全不明
Top