AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 網絡

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧

來源: 責編: 時間:2024-09-14 09:10:51 79觀看
導讀 說實話,有點受不了這些公司,老是半夜丟個大的了。尤其點名 OpenAI ,這回又毫無預告地發布了那個大家惦記了很久的新模型。之前說什么草莓不草莓的,一張草莓的照片遛了大家好幾天結果,這回新模型根本跟草莓毛關系

說實話,有點受不了這些公司,老是半夜丟個大的了。g9R28資訊網——每日最新資訊28at.com

尤其點名 OpenAI ,這回又毫無預告地發布了那個大家惦記了很久的新模型。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧之前說什么草莓不草莓的,一張草莓的照片遛了大家好幾天g9R28資訊網——每日最新資訊28at.com

結果,這回新模型根本跟草莓毛關系沒有,而是起了一個全新的名字OpenAI o1 模型g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

這玩意已經號稱 openAI 的天頂星科技,奧特曼直接發帖明說了,這就是他們到現在為止強、一致的模型。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

跟往次不同的是,這玩意到底多牛 OpenAI 實際也沒多吹,但是輕飄飄甩出了幾張圖,就有點讓人頭皮微麻。g9R28資訊網——每日最新資訊28at.com

像下面的圖里,三個測試項目的結果就能說明了,分別是國際數學奧林匹克競賽、編程競賽還有博士級別的科學問題。g9R28資訊網——每日最新資訊28at.com

這里面左邊為 GPT-4o ,中間是目前已經開放了的預覽版 o1 ,右邊高高的紅色柱子為滿血 o1 。g9R28資訊網——每日最新資訊28at.com

你瞅瞅,基本每一項, o1 比起自己的前輩來說,都是接近 8 倍的提升。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

要是把這些測試結果拆開來,這新 o1 也幾乎是在各種學科、各種領域,都全量、全面、全方位地超越 4o 。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

真正可怕的是, OpenAI 說自己專門請了博士專家一起答題。g9R28資訊網——每日最新資訊28at.com

結果在博士級別的測試結果上,我們看到 o1 答題分數均超過了博士專家。o1 得分 78 ,人類得分 69.7 。g9R28資訊網——每日最新資訊28at.com

連博士都輸了,那我和它比算什么?g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

敏感的網友們,直接就炸了呀,又開始喊著,新的神已經出現。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

隨便一翻,都是帶著【  】字的超高評價,什么 “ 簡直太棒了! ” 、 “ 接近人類推理的東西 ” g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

甚至有不少差友跑到咱們后臺,感慨 o1 你小子確實有點東西啊。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

聽起來是不是很牛逼?OpenAI 他們自己很顯然也是這么覺著的g9R28資訊網——每日最新資訊28at.com

具體 OpenAI 在它上面花了多少錢還沒公布,但從用戶使用上,就能明顯看到這玩意多耗錢了。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧o1 預覽版每百萬輸入 15 美元,每百萬輸出 60 美元g9R28資訊網——每日最新資訊28at.com

這次對用戶開放的甚至不是滿血版本,就是一個早期的預覽版和一個小型閹割版。g9R28資訊網——每日最新資訊28at.com

哪怕只是搶先嘗鮮,不僅不免費,哪怕你掏錢開了會員,也卡你問答次數。g9R28資訊網——每日最新資訊28at.com

預覽版每周只有 30 條, mini 每周只有 50 條。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

雖然有點貴,但我們肯定不可能讓 OpenAI 吹什么就是什么。g9R28資訊網——每日最新資訊28at.com

他們不是說超過博士了嗎?我就沖了幾個賬號,去找了幾個博士來親測了一下g9R28資訊網——每日最新資訊28at.com

為了保證專業性和客觀性,我們專門邀請了理綜三科的博士參與測評,有生物學、固體物理學、材料化學等等。g9R28資訊網——每日最新資訊28at.com

其中,南京大學在讀的固體物理學崔博士給出的評價,算是幾個人里高的。他覺得 o1 已經達到了 60 - 80 分( 滿分 100 )的水平。g9R28資訊網——每日最新資訊28at.com

甚至,部分回答也可以給到 90 分。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

崔博士給的第一個問題:遠距離糾纏光子分發,有什么克服白噪聲的辦法?g9R28資訊網——每日最新資訊28at.com

大概 9 秒鐘左右, o1 就給出了 10 點可行的措施。g9R28資訊網——每日最新資訊28at.com

當然了,沒一個點是我看得明白的。g9R28資訊網——每日最新資訊28at.com

不過,崔博士的評價還可以:答案列舉全面,符合現有的新研究進展,屬于科普級別的答案。g9R28資訊網——每日最新資訊28at.com

其中,提到的自適應光學的方向甚至是今年新的 science 成果。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

和老版 4o 一比,馬上高下立判了。g9R28資訊網——每日最新資訊28at.com

就別說新方向提沒提到,光是給出的措施數量上,就差了不少g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

于是后面,我們就專門對自適應光學這個船新方向進行了追問:利用了量子糾纏的什么原理來提高信噪比?能否拓展到量子自適應光學?g9R28資訊網——每日最新資訊28at.com

幾輪答案之后,崔博士給出了 80 - 90 分的高分,還大方地和我承認,部分思考是他的薄弱點,對他的方向有提示作用。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

不過,后續我們再深入追問之后,它問題就暴露出來了。g9R28資訊網——每日最新資訊28at.com

當追問到更難的實驗細節部分, o1 的回答效果就會降低。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

但總體來說,在物理方面, o1 的表現算是不錯的。和老版比下來,提升基本在 20 分左右。g9R28資訊網——每日最新資訊28at.com

不過,在 OpenAI 的測試里,物理本來就是分數高的。g9R28資訊網——每日最新資訊28at.com

所以我們又拉來一位北大在讀材料化學的 K 博士,想對它評分低的化學,來幾個狠問題。g9R28資訊網——每日最新資訊28at.com

K 博士圍繞Fe-N4 問了一系列的問題, o1 給了很長的一串回答,為了精簡篇幅我們這里只展示了部分問題和結果。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

整體測試之后, K 博士給出的評價也差不多:可能有研究生水平,但是深入的認知和給方案的能力,比較虛,主要還是針對已知內容作答。g9R28資訊網——每日最新資訊28at.com

比如問到如何調節 Fe-N4 , o1 可以說出基于電子態調節,但你要是問它那該咋調節,它就有點卡殼了。g9R28資訊網——每日最新資訊28at.com

雖然相比 gpt4o 沒那么胡說八道,但具體的問題上他倆都給不了太多建議,老版是喪失細節亂說,新版能力有限就會詞窮。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

除了這倆,理綜三科那肯定也少不了生物。g9R28資訊網——每日最新資訊28at.com

我們還咨詢了來自清華,在讀生物學的信博士,他的問題是: “ 如何從質譜數據集中區分賴氨酸殘基的乳酰化和羧乙基修飾? ” g9R28資訊網——每日最新資訊28at.com

雖然我聽不懂,但是 o1 也給了一段非常長的回答,跟論文綜述似的,后面還貼了參考文獻。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

但出乎意料的是,當我們把這個回答交給信博士,人家看完就發現不對路了,而且是一眼丁真的問題。g9R28資訊網——每日最新資訊28at.com

倒不是這 AI 回答的全錯,而是 AI 在參考文獻里亂編,這論文壓根不存在!g9R28資訊網——每日最新資訊28at.com

雖然編了,但也沒完全編,總體來說人家清華博士還是覺得比之前的 AI 能強不少,起碼理解能力是肉眼可見了,編也編的很像。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

不過,不同方向的博士評價有所區別,這或許也跟 o1 自己擅長的領域有關。g9R28資訊網——每日最新資訊28at.com

拿官方給出的理綜分數來看,雖然 gpt4o 在生物學上的評分要比化學和物理高,但這回的 o1 就完全不一樣。g9R28資訊網——每日最新資訊28at.com

o1 在物理上的分數達到了 92.8 ,已經遠超其他兩門學科,這或許就是崔博士對它比較看好的原因。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

總體而言,真要說到超越專業博士水平,博士們認為還得緩緩。g9R28資訊網——每日最新資訊28at.com

崔博士直言,在現實科研工作中,多數情況學者們都還得自己動手, AI 只能提供大致方向,因此花錢要這樣的細致 AI 意義不大。g9R28資訊網——每日最新資訊28at.com

他更推薦本科生選擇這個 AI ,要是碩博階段,那這個 AI 的回答其實并不符合導師標準,組會上肯定要挨批。g9R28資訊網——每日最新資訊28at.com

清華的信博士也同樣持這種看法,且不說 AI 的幻覺編造文獻問題,就專業程度而言, AI 的回答也只能糊弄大同行,也就是同一大學科里面方向不同的人群;而在小同行,專業研究這個方向的人眼里, AI 的毛病還是非常明顯的。g9R28資訊網——每日最新資訊28at.com

北大 K 博士則談的更深入,他認為這個 AI 只能說在認知上有了碩士生的水平,但也只是作為一個縫補匠,談不上說出什么創造性的成果。就創造性這一點來說, AI 是遠遠比不上碩博的水平的,這也是 AI 需要解決的重要問題。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

在博士們的評價里,我們似乎能抓到一個重點:o1 模型之所以相對更強,是因為他有了更高維的認知和思考模式。g9R28資訊網——每日最新資訊28at.com

這,也是 o1 本次更新的要點。我們在 OpenAI 官網找到了 Learning to Reason with LLMs 這篇文章,他們在文中表示,主要是他們用上了長思維鏈 (  CoT , Chain of thought  ) ,而不是傳統的提示鏈( Prompt chain )。g9R28資訊網——每日最新資訊28at.com

第一眼看上去有點懵,說人話就是,這個大模型改變了以往那種你問我答的思考方式。g9R28資訊網——每日最新資訊28at.com

在以前的模式下,大模型的問答就跟下意識出答案一樣,比如你問我天是啥顏色,這問題我想都不想,秒答藍色。這實際上需要我本來就知道這個知識點,然后給你直接反應就完了。g9R28資訊網——每日最新資訊28at.com

但這個長思維鏈就相當于,我不僅要知道藍色是個啥,還能自己推一遍為啥是藍色,什么大氣散射,光譜波長都要考慮進去。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

這就需要 AI 得有實打實的構建邏輯,推理論證的能力,換句話說,他不僅要長腦子,還要動腦子。g9R28資訊網——每日最新資訊28at.com

盡管思維鏈這個概念是 2022 年谷歌提出來的,但 OpenAI 這次是第一個實現的。g9R28資訊網——每日最新資訊28at.com

實操過程中,現在你與 o1 模型對話,除了收獲答案,還可以看選擇展開看他解答問題時的思維邏輯,他的思考是具象化的而不是黑盒。g9R28資訊網——每日最新資訊28at.com

比如我們拿崔博士提問的 “ 遠距離糾纏光子分發,有什么克服白噪聲的辦法? ” 這一問題為例, o1 模型的思考過程如下:g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

不過,就像專業領域的問題它也會翻車一樣,有些日常場景的簡單題似乎也有可能難住它。g9R28資訊網——每日最新資訊28at.com

拿之前那個經典 9.11 和 9.8 比大小例子來說,小紅書網友 @ 小水剛醒 就發現這玩意 “ 一上難度就崩潰……無限循環發瘋般推思維鏈( CoT ) ” g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

我們編輯部自己評測時也發現了這個問題,不過當詢問它為什么的時候,它也會馬上反應過來自己推理出現了錯誤,然后再重新推導一番。g9R28資訊網——每日最新資訊28at.com

好好好,不愧是博士,善于發現錯誤是吧。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

整輪測試下來,不得不承認,它確實是大大提升了。士別三日,也的確應當刮目相看。g9R28資訊網——每日最新資訊28at.com

在效果上,也確實相比前代確實更好,而且長思維的應用,對未來 AI 發展都是好事。g9R28資訊網——每日最新資訊28at.com

但在幾位博士輪番鞭打完以后,它的問題也暴露得挺明顯的,在創造力等某些方面,還替代不了人類博士專家。g9R28資訊網——每日最新資訊28at.com

OpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧g9R28資訊網——每日最新資訊28at.com

不過 OpenAI 的研究人員 Noam Brown 透露,未來版本的 o1 將會思考幾個小時、幾天甚至幾周,雖然這樣燒錢會更多,但像在研發抗癌藥這些任務上,這種花費也是值得的。g9R28資訊網——每日最新資訊28at.com

另外,差評君覺得 GPT o1 實現的思維鏈模式,也很有可能會像之前的 Transformer 架構、 DiT 架構那樣,又會引領全世界的大模型的方向g9R28資訊網——每日最新資訊28at.com

所以說,通往 AGI 之路說近不近,但說遠也不遠,期待接下來各家的選手輪番登場了。g9R28資訊網——每日最新資訊28at.com


文章出處:差評

本文鏈接:http://www.tebozhan.com/showinfo-17-113881-0.htmlOpenAI新模型媲美博士?我找清北博士品鑒了一下:醒醒吧

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 專家喊話稱不支持國足猶如無家可歸引熱議:子不嫌母丑

下一篇: 實測OpenAI強模型o1:會做大學數理化 但弱智吧依然難解

標簽:
  • 熱門焦點
  • Find N3入網:最高支持16+1TB

    OPPO將于近期登場的Find N3折疊屏目前已經正式入網,型號為PHN110。本次Find N3在外觀方面相比前兩代有很大的變化,不再是小號的橫向折疊屏,而是跟別的廠商一樣采用了較為常見的
  • 影音體驗是真的強 簡單聊聊iQOO Pad

    大公司的好處就是產品線豐富,非常細分化的東西也能給你做出來,例如早先我們看到了新的vivo Pad2,之后我們又在iQOO Neo8 Pro的發布會上看到了iQOO的首款平板產品iQOO Pad。雖
  • 小米降噪藍牙耳機Necklace分享:聽一首歌 讀懂一個故事

    在今天下午的小米Civi 2新品發布會上,小米還帶來了一款新的降噪藍牙耳機Necklace,我們也在發布結束的第一時間給大家帶來這款耳機的簡單分享。現在大家能見到最多的藍牙耳機
  • Rust中的高吞吐量流處理

    作者 | Noz編譯 | 王瑞平本篇文章主要介紹了Rust中流處理的概念、方法和優化。作者不僅介紹了流處理的基本概念以及Rust中常用的流處理庫,還使用這些庫實現了一個流處理程序
  • 多線程開發帶來的問題與解決方法

    使用多線程主要會帶來以下幾個問題:(一)線程安全問題  線程安全問題指的是在某一線程從開始訪問到結束訪問某一數據期間,該數據被其他的線程所修改,那么對于當前線程而言,該線程
  • 虛擬鍵盤 API 的妙用

    你是否在遇到過這樣的問題:移動設備上有一個固定元素,當激活虛擬鍵盤時,該元素被隱藏在了鍵盤下方?多年來,這一直是 Web 上的默認行為,在本文中,我們將探討這個問題、為什么會發生
  • 小米汽車電池信息疑似曝光:容量101kWh,支持800V高壓快充

    7月14日消息,今日一名博主在社交媒體發布了一張疑似小米汽車電池信息的照片,顯示該電池包正是寧德時代麒麟電池,容量為101kWh,電壓為726.7V,可以預測小
  • 華為將推出盤古數字人大模型 可幫助用戶12小時完成數字人生成

    在今日舉行的2023年華為云數字文娛AI創新峰會上,華為云全球Marketing與銷售服務總裁石冀琳表示,華為云將在后續推出盤古數字人大模型,可幫助用戶12小
  • 華為Mate60標準版細節曝光:經典星環相機模組回歸

    這段時間以來,關于華為新旗艦的爆料日漸密集。據此前多方爆料,今年華為將開始恢復一年雙旗艦戰略,除上半年推出的P60系列外,往年下半年的Mate系列也將
Top