當前位置：首頁 > 科技 > 網絡

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

來源：責編：時間：2024-09-14 09:12:00 118觀看

導讀 OpenAI傳說中的“草莓”終于正式上線！不僅可以勝任更復雜的推理任務，在數學、代碼和其他科學領域也能解決更難的問題。OpenAI這次“無預警發布”震撼了科技圈，o1更是被CEO奧特曼稱它為了

OpenAI傳說中的“草莓”終于正式上線！

不僅可以勝任更復雜的推理任務，在數學、代碼和其他科學領域也能解決更難的問題。

OpenAI這次“無預警發布”震撼了科技圈，o1更是被CEO奧特曼稱它為了一種新范式的開始。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

發布之后，各路大神和網友都紛紛用各種問題測試OpenAI o1的表現：

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

還有人進行了花式考驗，結果被o1強大的推理能力秀到了。

Q：你的回復中有幾個字？ A1：這句話有七個字 A2：一共五個字

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

量子位也進行了一番實測，下面就一起來了解。

推理能力大進化，但還是難敵弱智吧

該說不說，o1雖然在推理能力上取得了很大進步，但面對充滿心機的弱智吧問題，還是掉進了人類挖的陷阱。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

當然了，對于正經問題，o1的表現還是很強的，首先看看邏輯推理能力。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

思考這道題時，preview和mini分別用時21秒和14秒，不過從文本上看mini思考得反而更多。

其中還出現了一些西里爾字母亂入，不過對整體影響不大。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

終，二者也都給出了正確的答案——丙。

值得注意的是，mini（右）的解答當中還出現了修正的過程。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

接下來看下o1在大學數理化題目上的表現。

首先是這道考研數學真題，涉及的知識點是曲面積分、高斯定理等內容：

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

還是分別看下preview和mini的思考，可以看到mini的思考過程大概是preview的簡略版，當然速度也快了不少。

不過preview給的思考過程當中再次出現亂入，這次是泰語。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

實際解答過程也是preview比mini更加詳細，不過不知道為什么preview用了英文回答。

后的計算結果化簡方式也有所不同，但數值上是相等的，而且也做對了。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

對比4o這邊，先偷懶后作弊（調用了代碼解釋器），結果后答案還是錯的。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

第二道數學題關于概率。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

這道題preview依然是用英語進行了作答，步驟比mini更加詳細，當然都是對的。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

而4o的答案前面的過程倒是基本都對，但是后一步的求解出現了問題，只給出了1這一個解，并且不是本題答案。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

物理方面，這里選擇了一道大學物理中的光學題：

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

preview（左）和mini都給出了正確解答，內容也基本一致。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

化學的題目是一道物化題，主要涉及電化學等內容。

這里把AgCl/Ag的標準電極電勢作為已知條件一同輸入給模型。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

Preview（左）和mini大致的解題思路還是差不多，在計算步驟上有指對運算先后的差別，當然后的結果還是對的。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

后一項測試就不再做考試題了，而是看看模型編寫代碼的能力如何。

這里選擇的題目難度非常高，真人的通過率只有14%。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

以下是preview（左）和mini的解題思路：

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

從代碼上看，兩者核心邏輯相似，但在具體操作上略有區別。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

兩套代碼均通過了測試，內存消耗也比較接近，而mini給出的代碼運行時間更短（38毫秒）。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

o1的編程能力除了用來解題，也可以快速構建出實用的應用程序。

知名AI配音工具ElevenLabs設計部門負責人Ammaar Reshi，就利用o1搭配Cursor Composer，用了不到10分鐘的時間制作了一款iOS天氣應用。

小數比較還是不會？

測試發現，對于大模型難以答對的名場面——小數比大小，preview（左）和mini都答不對。

甚至preview在思考過程中明明已經提到過9.8比9.11大。

但同時preview在思考過程中表示，9.8和9.11有可能指的是日期，所以做不對也許另一原因。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

針對這個問題，大神謝賽寧也曬出了他的測試結果，發現o1在思考過程中將9.8當成了重力常數，而9.11是一個“意義不明的數字”。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

所以o1可能不是不會，而是把這個問題想復雜了。

為了進一步探究，我們把問題改得具體些，強調一下9.8和9.11都是數字，這下沒有了歧義之后就能一次做對了。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

可以看出，提示詞的影響還是不小的。

由于o1在內部采用了一些類思維鏈過程，因此prompt的設計和普通版本也有所區別，OpenAI官方發布了一則提示：

提示詞應簡單且直接

避免在提示詞中使用思維鏈

使用分隔符讓promot更清晰

控制RAG內容的長度

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

回到我們的測試，面對其他幾個大模型敗北名場面，o1也有不小的進步。

比如在數字母的任務上就有所進化，即使是一串亂打的字母也能數對。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

還有面對經典的“反轉詛咒”（即知道A是B卻不知道B是A）問題，也終于一次性答對了Mary Lee Pfeiffer（湯姆·克魯斯的母親）的兒子是誰。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

One More Thing

關于這次發布的o1，除了各個方面的成績之外，還有一些其他的發現。

比如前特斯拉自動駕駛負責人、兩度進入OpenAI又兩度離職的大神Andrej Karpathy發現，o1-mini在被要求證明黎曼猜想的時候出現了拒絕回答的情況，表示大模型“犯懶”依然是一個大問題。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

還有網友說覺得mini的表現比preview好，想問下有沒有人知道原因或者有啥看法。

這條消息也把奧特曼吸引了過來，回復了一句“Yes I have one”。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

根據OpenAI內部員工Kevin Lu發布的一則推文來看，mini的性價比確實比preview更高。

根據這張圖顯示，preview版本論性能比不上尚未公布的滿血o1，論經濟性又比不上mini。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

順便提一句，preview版本存在消息數量限制，并且數量是按周進行重置的，幾輪測試下來已經快要用盡了。

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

文章出處：量子位

本文鏈接：http://www.tebozhan.com/showinfo-17-113883-0.html實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI新模型媲美博士？我找清北博士品鑒了一下：醒醒吧

下一篇： 55歲謝廣坤給兒子辦滿月酒引網友圍觀：嬌妻90后相差20幾歲

標簽：

熱門焦點

小米平板5 Pro 12.4簡評：多專多能兼顧影音娛樂的大屏利器

疫情帶來了網課，網課盤活了安卓平板，安卓平板市場雖然中途停滯了幾年，但好的一點就是停滯的這幾年行業又有了新的發展方向，例如超窄邊框、高刷新率、多攝鏡頭組合等，這就讓安卓
三言兩語說透設計模式的藝術-簡單工廠模式

一、寫在前面工廠模式是最常見的一種創建型設計模式，通常說的工廠模式指的是工廠方法模式，是使用頻率最高的工廠模式。簡單工廠模式又稱為靜態工廠方法模式，不屬于GoF 23種設計
Golang 中的 io 包詳解：組合接口

io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是對Reader和Writer接口的組合，
分享六款相見恨晚的PPT模版網站, 祝你做出精美的PPT!

1、OfficePLUSOfficePLUS網站旨在為全球Office用戶提供豐富的高品質原創PPT模板、實用文檔、數據圖表及個性化定制服務。優點：OfficePLUS是微軟官方網站，囊括PPT模板、Word模
雅柏威士忌多款單品價格大跌，泥煤頂流也不香了？

來源 | 烈酒商業觀察編 | 肖海林今年以來，威士忌市場開始出現了降溫跡象，越來越多不斷暴漲的網紅威士忌也開始悄然回歸市場理性。近日，LVMH集團旗下蘇格蘭威士忌品牌雅柏（Ardbeg
iQOO Neo8 Pro搶先上架：首發天璣9200+ 安卓性能之王

經過了一段時間的密集爆料，昨日iQOO官方如期對外宣布：將于5月23日推出全新的iQOO Neo8系列新品，官方稱這是一款擁有旗艦級性能調校的作品。隨著發布時
Android 14發布：首批適配機型公布

5月11日消息，谷歌在今天凌晨舉行了I/O大會，本次發布會谷歌帶來了自家的AI語言模型PaLM 2、谷歌Pixel Fold折疊屏、谷歌Pixel 7a手機，同時發布了Androi
OPPO Reno10 Pro英雄聯盟定制禮盒公布：薩勒芬妮同款配色夢幻十足

5月24日，OPPO推出了全新的OPPO Reno 10系列，包含OPPO Reno10、OPPO Reno10 Pro和OPPO Reno10 Pro+三款新機，全系標配了超光影長焦鏡頭，是迄今為止拍照
上海舉辦人工智能大會活動，建設人工智能新高地

人工智能大會在上海浦江兩岸隆重拉開帷幕，人工智能新技術、新產品、新應用、新理念集中亮相。8月30日晚，作為大會的特色活動之一的上海人工智能發展盛典人工

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解

小米平板5 Pro 12.4簡評：多專多能兼顧影音娛樂的大屏利器

三言兩語說透設計模式的藝術-簡單工廠模式

Golang 中的 io 包詳解：組合接口

分享六款相見恨晚的PPT模版網站, 祝你做出精美的PPT!

雅柏威士忌多款單品價格大跌，泥煤頂流也不香了？

iQOO Neo8 Pro搶先上架：首發天璣9200+ 安卓性能之王

Android 14發布：首批適配機型公布

OPPO Reno10 Pro英雄聯盟定制禮盒公布：薩勒芬妮同款配色夢幻十足

上海舉辦人工智能大會活動，建設人工智能新高地

最新推薦

猜你喜歡

熱門推薦

相關資訊

實測OpenAI強模型o1：會做大學數理化 但弱智吧依然難解

最新推薦

猜你喜歡

熱門推薦

相關資訊

實測OpenAI強模型o1：會做大學數理化但弱智吧依然難解