當前位置：首頁 > 元宇宙 > AI

OpenAI 員工“瘋狂暗示”內部已成功開發 ASI？被曝訓出 GPT-5 但雪藏

來源：責編：時間：2025-01-21 12:19:01 128觀看

導讀 OpenAI，有大事發生！最近各種爆料頻出，比如 OpenAI 已經跨過「遞歸自我改進」臨界點，o4、o5 已經能自動化 AI 研發，甚至 OpenAI 已經研發出 GPT-5？OpenAI 員工如潮水般爆料，瘋狂暗示內部已開發出 ASI。種種跡象表明，最

OpenAI，有大事發生！最近各種爆料頻出，比如 OpenAI 已經跨過「遞歸自我改進」臨界點，o4、o5 已經能自動化 AI 研發，甚至 OpenAI 已經研發出 GPT-5？OpenAI 員工如潮水般爆料，瘋狂暗示內部已開發出 ASI。

種種跡象表明，最近 OpenAI 似乎發生了什么大事。

AI 研究員 Gwern Branwen 發布了一篇關于 OpenAI o3、o4、o5 的文章。

根據他的說法，OpenAI 已經跨越了臨界點，達到了「遞歸自我改進」的門檻 ——o4 或 o5 能自動化 AI 研發，完成剩下的工作！

文章要點如下 ——

- OpenAI 可能選擇將其「o1-pro」模型保密，利用其計算資源來訓練 o3 這類更高級的模型，類似于 Anthorpic 的策略

- OpenAI 可能相信他們已經在 AI 發展方面取得了突破，正在走向 ASI 之路

- 目標是開發一種運行效率高的超人 AI，類似于 AlphaGo / Zero 所實現的目標

- 推理時搜索最初可以提高性能，但最終會達到極限

甚至還出現了這樣一種傳言：OpenAI 和 Anthropic 已經訓練出了 GPT-5 級別的模型，但都選擇了「雪藏」。

原因在于，模型雖能力強，但運營成本太高，用 GPT-5 蒸餾出 GPT-4o、o1、o3 這類模型，才更具性價比。

甚至，OpenAI 安全研究員 Stephen McAleer 最近兩周的推文，看起來簡直跟短篇科幻小說一樣 ——

我有點懷念過去做 AI 研究的時候，那時我們還不知道如何創造超級智能。

在前沿實驗室，許多研究人員都非常認真地對待 AI 短時間的影響，而實驗室之外幾乎沒有人充分討論其安全影響。

而現在控制超級智能已經是迫在眉睫的研究事項了。

我們該如何控制詭計多端的超級智能？即使擁有完美的監視器，難道它不會說服我們將其從沙箱中釋放出來嗎？

總之，越來越多 OpenAI 員工，都開始暗示他們已經在內部開發了 ASI。

這是真的嗎？還是 CEO 阿爾特曼「謎語人」的風格被底下員工學會了？

很多人覺得，這是 OpenAI 慣常的一種炒作手段。

但讓人有點害怕的是，有些一兩年前離開的人，其實表達過擔憂。

莫非，我們真的已處于 ASI 的邊緣？

超級智能（superintelligence）的「潘多拉魔盒」，真的被打開了？

OpenAI:「遙遙領先」

OpenAI 的 o1 和 o3 模型，開啟了新的擴展范式：在運行時對模型推理投入更多計算資源，可以穩定地提高模型性能。

如下面所示，o1 的 AIME 準確率，隨著測試時計算資源的對數增加而呈恒定增長。

OpenAI 的 o3 模型延續了這一趨勢，創造了破紀錄的表現，具體成績如下：

在 Codeforces 上得分 2727，使其成為全球第 175 名最優秀的競技編程者；

在 FrontierMath 上得分 25%，該平臺的「每個問題都需要數學家幾個小時的工作」；

在 GPQA 上得分 88%，其中 70% 的分數代表博士級別的科學知識；

在 ARC-AGI 上得分 88%，而在困難的視覺推理問題上, 平均 Mechanical Turk 人工任務工人的得分為 75%。

根據 OpenAI 的說法，o 系列模型的性能提升主要來自于增加思維鏈（Chain-of-Thought，CoT）的長度（以及其他技術，如思維樹），并通過強化學習改進思維鏈（CoT）過程。

目前，運行 o3 在最大性能下非常昂貴，單個 ARC-AGI 任務的成本約為 300 美元，但推理成本正以每年約 10 倍的速度下降！

Epoch AI 的一項最新分析指出，前沿實驗室在模型訓練和推理上的花費可能相似。

因此，除非接近推理擴展的硬性限制，否則前沿實驗室將繼續大量投入資源優化模型推理，并且成本將繼續下降。

就一般情況而言，推理擴展范式預計可能會持續下去，并且將是 AGI 安全性的一個關鍵考慮因素。

AI 安全性影響

那么推理擴展范式對 AI 安全性的影響是什么呢？簡而言之，AI 安全研究人員 Ryan Kidd 博士認為：

AGI 時間表大體不變，但可能會提前一年。

對于前沿模型的部署，可能會減少其過度部署的影響，因為它們的部署成本將比預期高出約 1000 倍，這將減少來自高速或集體超級智能的近期風險。

思維鏈（CoT）的監督可能更有用，前提是禁止非語言的 CoT，這對 AI 安全性有利。

更小的、運行成本更高的模型更容易被盜用，但除非非常富有，否則很難進行操作，這減少了單邊主義詛咒的風險。

擴展可解釋性更容易還是更難；尚不確定。

模型可能會更多地接受強化學習（RL），但這將主要是「基于過程」的，因此可能更安全，前提是禁止非語言的 CoT。

出口管制可能需要調整，以應對專用推理硬件。

AGI 時間表

o1 和 o3 的發布，對 AGI 時間表的預測的影響并不大。

Metaculus 的「強 AGI」預測似乎因為 o3 的發布而提前了一年，預計在 2031 年中期實現；然而，自 2023 年 3 月以來，該預測一直在 2031 到 2033 年之間波動。

Manifold Market 的「AGI 何時到來？」也提前了一年，從 2030 年調整為 2029 年，但最近這一預測也在波動。

很有可能，這些預測平臺已經在某種程度上考慮了推理計算擴展的影響，因為思維鏈并不是一項新技術，即使通過 RL 增強。

總體來說，Ryan Kidd 認為他也沒有比這些預測平臺當前預測更好的見解。

部署問題

在《AI Could Defeat All Of Us Combined》中，Holden Karnofsky 描述了一種模棱兩可的風險威脅模型。

在此模型中，一群人類水平的 AI，憑借更快的認知速度和更好的協調能力超過了人類，而非依賴于定性上的超級智能能力。

這個情景的前提是，「一旦第一個人類水平的 AI 系統被創造出來，創造它的人，可以利用創造它所需要的相同計算能力，運行數億個副本，每個副本大約運行一年。」

如果第一個 AGI 的運行成本和 o3-high 的成本一樣（約 3000 美元 / 任務），總成本至少要 3000 億美元，那么這個威脅模型似乎就不那么可信了。

因此，Ryan Kidd 博士對「部署問題」問題的擔憂較小，即一旦經過昂貴的訓練，短期模型就可以廉價地部署，從而產生巨大影響。

這在一定程度上減輕了他對「集體」或「高速」超級智能的擔憂，同時略微提升了對「定性」超級智能的關注，至少對于第一代 AGI 系統而言。

監督思維鏈

如果模型的更多認知，是以人類可解釋的思維鏈（CoT）形式嵌入，而非內部激活，這似乎是通過監督來促進 AI 安全性的好消息！

盡管 CoT 對模型推理的描述并不總是真實或準確，但這一點可能得到改進。

Ryan Kidd 也對 LLM 輔助的紅隊成員持樂觀態度，他們能夠防止隱秘的陰謀，或者至少限制可能秘密實施的計劃的復雜度，前提是有強有力的 AI 控制措施

從這個角度來看，推理計算擴展范式似乎非常有利于 AI 安全，前提是有足夠的 CoT 監督。

不幸的是，像 Meta 的 Coconut（「連續思維鏈」）這樣的技術可能很快就會應用于前沿模型，連續推理可以不使用語言作為中介狀態。

盡管這些技術可能帶來性能上的優勢，但它們可能會在 AI 安全性上帶來巨大的隱患。

正如 Marius Hobbhahn 所說：「如果為了微小的性能提升，而犧牲了可讀的 CoT，那簡直是在自毀前程。」

然而，考慮到用戶看不到 o1 的 CoT，尚不確定是否能知道非語言 CoT 被部署的可能性，除非通過對抗性攻擊揭示這一點。

AGI 來了

美國 AI 作家和研究員 Gwern Branwen，則認為 Ryan Kidd 遺漏了一個重要方面：像 o1 這樣的模型的主要目的之一不是將其部署，而是生成下一個模型的訓練數據。

o1 解決的每一個問題現在都是 o3 的一個訓練數據點（例如，任何一個 o1 會話最終找到正確答案的例子，都來訓練更精細的直覺）。

這意味著這里的擴展范式，可能最終看起來很像當前的訓練時范式：大量的大型數據中心，在努力訓練一個擁有最高智能的最終前沿模型，并以低搜索的方式使用，并且會被轉化為更小更便宜的模型，用于那些低搜索或無搜索的用例。

對于這些大型數據中心來說，工作負載可能幾乎完全與搜索相關（因為與實際的微調相比，推出模型的成本低廉且簡單），但這對其他人來說并不重要；就像之前一樣，所看到的基本是，使用高端 GPU 和大量電力，等待 3 到 6 個月，最終一個更智能的 AI 出現。

OpenAI 部署了 o1-pro，而不是將其保持為私有，并將計算資源投資于更多的 o3 訓練等自舉過程。

Gwern Branwen 對此有點驚訝。

顯然，類似的事情也發生在 Anthropic 和 Claude-3.6-opus 上 —— 它并沒有「失敗」，他們只是選擇將其保持為私有，并將其蒸餾成一個小而便宜、但又奇怪地聰明的 Claude-3.6-sonnet。

OpenAI 突破「臨界點」

OpenAI 的成員突然在 Twitter 上變得有些奇怪、甚至有些欣喜若狂，原因可能就是看到從原始 4o 模型到 o3（以及現在的狀態）的改進。

這就像觀看 AlphaGo 在圍棋中等國際排名：它一直在上升…… 上升…… 再上升……

可能他們覺得自己「突破了」，終于跨過了臨界點：從單純的前沿 AI 工作，幾乎每個人幾年后都會復制的那種，跨越到起飛階段 —— 破解了智能的關鍵，以至 o4 或 o5 將能夠自動化 AI 研發，并完成剩下的部分。

2024 年 11 月，阿爾特曼表示：

我可以看到一條路徑，我們正在做的工作會繼續加速增長，過去三年取得的進展將繼續在未來三年、六年、九年或更長時間里繼續下去。

不久卻又改口：

我們現在非常確信地知道如何構建傳統意義上的 AGI…… 我們開始將目標超越這一點，邁向真正意義上的超級智能。我們很喜歡我們目前的產品，但我們是為了美好的未來。通過超級智能，我們可以做任何事情。

而其他 AI 實驗室卻只能望洋興嘆：當超級智能研究能夠自給自足時，根本無法獲得所需的大型計算設備來競爭。

最終 OpenAI 可能吃下整個 AI 市場。

畢竟 AlphaGo / Zero 模型不僅遠超人類，而且運行成本也非常低。僅僅搜索幾步就能達到超人類的實力；即使是僅僅前向傳遞，已接近職業人類的水平！

如果看一下下文中的相關擴展曲線，會發現原因其實顯而易見。

論文鏈接：https://arxiv.org/pdf/2104.03113

繼續蒸餾

推理時的搜索就像是一種刺激劑，能立即提升分數，但很快就會達到極限。

很快，你必須使用更智能的模型來改善搜索本身，而不是做更多的搜索。

如果單純的搜索能如此有效，那國際象棋在 1960 年代就能解決了。

而實際上，到 1997 年 5 月，計算機才擊敗了國際象棋世界冠軍，但超過國際象棋大師的搜索速度并不難。

如果你想要寫著「Hello World」的文本，一群在打字機上的猴子可能就足夠了；但如果想要在宇宙毀滅之前，得到《哈姆雷特》的全文，你最好現在就開始去克隆莎士比亞。

幸運的是，如果你手頭有需要的訓練數據和模型，那可以用來創建一個更聰明的模型：聰明到可以寫出媲美甚至超越莎士比亞的作品。

2024 年 12 月 20 日，阿爾特曼強調：

在今天的噪聲中，似乎有些消息被忽略了：

在編程任務中，o3-mini 將超過 o1 的表現，而且成本還要少很多！

我預計這一趨勢將持續下去，但也預見到為獲得邊際的更多性能而付出指數級增加的資金，這將變得非常奇怪。

因此，你可以花錢來改善模型在某些輸出上的表現…… 但「你」可能是「AI 實驗室」，你只是花錢去改善模型本身，而不僅僅是為了某個一般問題的臨時輸出。

這意味著外部人員可能永遠看不到中間模型（就像圍棋玩家無法看到 AlphaZero 訓練過程中第三步的隨機檢查點）。

而且，如果「部署成本是現在的 1000 倍」成立，這也是不部署的一個理由。

為什么要浪費這些計算資源來服務外部客戶，而不繼續訓練，將其蒸餾回去，最終部署一個成本為 100 倍、然后 10 倍、1 倍，甚至低于 1 倍的更優模型呢？

因此，一旦考慮到所有的二階效應和新工作流，搜索 / 測試時間范式可能會看起來出奇地熟悉。

參考資料：

https://x.com/emollick/status/1879574043340460256

https://x.com/slow_developer/status/1879952568614547901

https://x.com/kimmonismus/status/1879961110507581839

https://www.lesswrong.com/posts/HiTjDZyWdLEGCDzqu/implications-of-the-inference-scaling-paradigm-for-ai-safety

https://x.com/jeremyphoward/status/1879691404232015942

本文來自微信公眾號：新智元（ID：AI_era）

本文鏈接：http://www.tebozhan.com/showinfo-45-9504-0.htmlOpenAI 員工“瘋狂暗示”內部已成功開發 ASI？被曝訓出 GPT-5 但雪藏

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：美政府力邀 ChatGPT 產品主管出庭作證，希望增強對谷歌的反壟斷指控

下一篇： OpenAI 阿爾特曼：計劃幾周內推出 o3 mini 推理模型

標簽：

熱門焦點

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

作者：趙志東蔡佳雯來源：區塊鏈日報該法案采用風險分級的規制路徑，將人工智能系統的風險劃分成不可接受的風險、高風險、有限風險和輕微風險四種類型，并針對不同類型施加了不同
關于年度熱詞NFT，除了錢，我們還可以聊點啥？

每到年底，社交媒體總少不了年度盤點、年度總結、年度熱詞。如果讓你來總結2021年度熱詞，你會想到什么？柯林斯詞典將年度熱詞頒給了“NFT”，而其理由是：一個縮寫詞的
保時捷推出虛擬超跑，車企元宇宙營銷這么香？

保時捷又出超跑了，不過這次不是在現實世界，而是在虛擬世界。這款Vision Gran Turismo概念車，由保時捷和日本視頻游戲開發工作室Polyphony Digital聯合打造，將于202
冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

“兩日上漲千倍”并不存在，且冰墩墩NFT的市場熱度遠不及社交媒體所稱的那樣高。2月11日，獲得國際奧委會授權的2022冬奧會吉祥物冰墩墩相關NFT產品在nWayPlay上線
上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

區塊鏈日報17日訊今日《元宇宙新鮮事》有：上海虹口將成立總額約10億元的元宇宙產業基金；香港市場首只元宇宙主題ETF擬于2月21日上市；元宇宙平臺Roblox出現違禁游
NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

Hayley Rincon是一位令人印象深刻才華橫溢的創作者，她的作品呈現出迷幻的氣息。今天就來聊聊她的藝術作品，和她自己的數字藝術之路。Hayley是加利福尼亞灣區的有
NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣，究竟有何潛力？

Block-810多個區塊鏈吸引了希望創建單個NFT或整個集合的用戶的注意。Tezos是其中因其低費用和低碳排放方式而備受贊譽的區塊鏈，就連Snoop Dogg也希望通過公開他
頭像類NFTs的統治能持續多久？

在過去的一兩年里，NFTs在互聯網世界中掀起了一場風暴。今天，當我們想到NFTs時，我們主要想到的是那些充斥著我們的社交媒體屏幕的數字卡通--無聊猿、punks 和介于
2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

UGC作為元宇宙的主要內容創作模式，已經越來越多的呈現于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現今元宇宙UGC模式的主要呈現方式以元宇宙概念

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 員工“瘋狂暗示”內部已成功開發 ASI？被曝訓出 GPT-5 但雪藏

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

關于年度熱詞NFT，除了錢，我們還可以聊點啥？

保時捷推出虛擬超跑，車企元宇宙營銷這么香？

冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣，究竟有何潛力？

頭像類NFTs的統治能持續多久？

2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

最新推薦

數字人的新革命，BAT的“沖高”戰場

這場虛擬人爭奪戰，互聯網巨頭下場先贏一半？

索尼公布PSVR 2頭顯渲染圖；社區開發者發布Quest版《我的世界》

吸金31億美元，誰在催火2021年的鏈游？

NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

a16z：元宇宙辦公會取代實體辦公室嗎？

猜你喜歡

熱門推薦

相關資訊

OpenAI 員工“瘋狂暗示”內部已成功開發 ASI？被曝訓出 GPT-5 但雪藏

最新推薦

猜你喜歡

熱門推薦

相關資訊

OpenAI 員工“瘋狂暗示”內部已成功開發 ASI？被曝訓出 GPT-5 但雪藏