AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

OpenAI 員工“瘋狂暗示”內(nèi)部已成功開發(fā) ASI?被曝訓出 GPT-5 但雪藏

來源: 責編: 時間:2025-01-21 12:19:01 83觀看
導讀 OpenAI,有大事發(fā)生!最近各種爆料頻出,比如 OpenAI 已經(jīng)跨過「遞歸自我改進」臨界點,o4、o5 已經(jīng)能自動化 AI 研發(fā),甚至 OpenAI 已經(jīng)研發(fā)出 GPT-5?OpenAI 員工如潮水般爆料,瘋狂暗示內(nèi)部已開發(fā)出 ASI。種種跡象表明,最

OpenAI,有大事發(fā)生!最近各種爆料頻出,比如 OpenAI 已經(jīng)跨過「遞歸自我改進」臨界點,o4、o5 已經(jīng)能自動化 AI 研發(fā),甚至 OpenAI 已經(jīng)研發(fā)出 GPT-5?OpenAI 員工如潮水般爆料,瘋狂暗示內(nèi)部已開發(fā)出 ASI。Zog28資訊網(wǎng)——每日最新資訊28at.com

種種跡象表明,最近 OpenAI 似乎發(fā)生了什么大事。Zog28資訊網(wǎng)——每日最新資訊28at.com

AI 研究員 Gwern Branwen 發(fā)布了一篇關(guān)于 OpenAI o3、o4、o5 的文章。Zog28資訊網(wǎng)——每日最新資訊28at.com

根據(jù)他的說法,OpenAI 已經(jīng)跨越了臨界點,達到了「遞歸自我改進」的門檻 ——o4 或 o5 能自動化 AI 研發(fā),完成剩下的工作!Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

文章要點如下 ——Zog28資訊網(wǎng)——每日最新資訊28at.com

- OpenAI 可能選擇將其「o1-pro」模型保密,利用其計算資源來訓練 o3 這類更高級的模型,類似于 Anthorpic 的策略Zog28資訊網(wǎng)——每日最新資訊28at.com

- OpenAI 可能相信他們已經(jīng)在 AI 發(fā)展方面取得了突破,正在走向 ASI 之路Zog28資訊網(wǎng)——每日最新資訊28at.com

- 目標是開發(fā)一種運行效率高的超人 AI,類似于 AlphaGo / Zero 所實現(xiàn)的目標Zog28資訊網(wǎng)——每日最新資訊28at.com

- 推理時搜索最初可以提高性能,但最終會達到極限Zog28資訊網(wǎng)——每日最新資訊28at.com

甚至還出現(xiàn)了這樣一種傳言:OpenAI 和 Anthropic 已經(jīng)訓練出了 GPT-5 級別的模型,但都選擇了「雪藏」。Zog28資訊網(wǎng)——每日最新資訊28at.com

原因在于,模型雖能力強,但運營成本太高,用 GPT-5 蒸餾出 GPT-4o、o1、o3 這類模型,才更具性價比。Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

甚至,OpenAI 安全研究員 Stephen McAleer 最近兩周的推文,看起來簡直跟短篇科幻小說一樣 ——Zog28資訊網(wǎng)——每日最新資訊28at.com

我有點懷念過去做 AI 研究的時候,那時我們還不知道如何創(chuàng)造超級智能。Zog28資訊網(wǎng)——每日最新資訊28at.com

在前沿實驗室,許多研究人員都非常認真地對待 AI 短時間的影響,而實驗室之外幾乎沒有人充分討論其安全影響。Zog28資訊網(wǎng)——每日最新資訊28at.com

而現(xiàn)在控制超級智能已經(jīng)是迫在眉睫的研究事項了。Zog28資訊網(wǎng)——每日最新資訊28at.com

我們該如何控制詭計多端的超級智能?即使擁有完美的監(jiān)視器,難道它不會說服我們將其從沙箱中釋放出來嗎?Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

總之,越來越多 OpenAI 員工,都開始暗示他們已經(jīng)在內(nèi)部開發(fā)了 ASI。Zog28資訊網(wǎng)——每日最新資訊28at.com

這是真的嗎?還是 CEO 阿爾特曼「謎語人」的風格被底下員工學會了?Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

很多人覺得,這是 OpenAI 慣常的一種炒作手段。Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

但讓人有點害怕的是,有些一兩年前離開的人,其實表達過擔憂。Zog28資訊網(wǎng)——每日最新資訊28at.com

莫非,我們真的已處于 ASI 的邊緣?Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

超級智能(superintelligence)的「潘多拉魔盒」,真的被打開了?Zog28資訊網(wǎng)——每日最新資訊28at.com

OpenAI:「遙遙領(lǐng)先」

OpenAI 的 o1 和 o3 模型,開啟了新的擴展范式:在運行時對模型推理投入更多計算資源,可以穩(wěn)定地提高模型性能。Zog28資訊網(wǎng)——每日最新資訊28at.com

如下面所示,o1 的 AIME 準確率,隨著測試時計算資源的對數(shù)增加而呈恒定增長。Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 的 o3 模型延續(xù)了這一趨勢,創(chuàng)造了破紀錄的表現(xiàn),具體成績?nèi)缦拢?span style="display:none">Zog28資訊網(wǎng)——每日最新資訊28at.com

在 Codeforces 上得分 2727,使其成為全球第 175 名最優(yōu)秀的競技編程者;Zog28資訊網(wǎng)——每日最新資訊28at.com

在 FrontierMath 上得分 25%,該平臺的「每個問題都需要數(shù)學家?guī)讉€小時的工作」;Zog28資訊網(wǎng)——每日最新資訊28at.com

在 GPQA 上得分 88%,其中 70% 的分數(shù)代表博士級別的科學知識;Zog28資訊網(wǎng)——每日最新資訊28at.com

在 ARC-AGI 上得分 88%,而在困難的視覺推理問題上, 平均 Mechanical Turk 人工任務工人的得分為 75%。Zog28資訊網(wǎng)——每日最新資訊28at.com

根據(jù) OpenAI 的說法,o 系列模型的性能提升主要來自于增加思維鏈(Chain-of-Thought,CoT)的長度(以及其他技術(shù),如思維樹),并通過強化學習改進思維鏈(CoT)過程。Zog28資訊網(wǎng)——每日最新資訊28at.com

目前,運行 o3 在最大性能下非常昂貴,單個 ARC-AGI 任務的成本約為 300 美元,但推理成本正以每年約 10 倍的速度下降!Zog28資訊網(wǎng)——每日最新資訊28at.com

Epoch AI 的一項最新分析指出,前沿實驗室在模型訓練和推理上的花費可能相似。Zog28資訊網(wǎng)——每日最新資訊28at.com

因此,除非接近推理擴展的硬性限制,否則前沿實驗室將繼續(xù)大量投入資源優(yōu)化模型推理,并且成本將繼續(xù)下降。Zog28資訊網(wǎng)——每日最新資訊28at.com

就一般情況而言,推理擴展范式預計可能會持續(xù)下去,并且將是 AGI 安全性的一個關(guān)鍵考慮因素。Zog28資訊網(wǎng)——每日最新資訊28at.com

AI 安全性影響

那么推理擴展范式對 AI 安全性的影響是什么呢?簡而言之,AI 安全研究人員 Ryan Kidd 博士認為:Zog28資訊網(wǎng)——每日最新資訊28at.com

AGI 時間表大體不變,但可能會提前一年。Zog28資訊網(wǎng)——每日最新資訊28at.com

對于前沿模型的部署,可能會減少其過度部署的影響,因為它們的部署成本將比預期高出約 1000 倍,這將減少來自高速或集體超級智能的近期風險。Zog28資訊網(wǎng)——每日最新資訊28at.com

思維鏈(CoT)的監(jiān)督可能更有用,前提是禁止非語言的 CoT,這對 AI 安全性有利。Zog28資訊網(wǎng)——每日最新資訊28at.com

更小的、運行成本更高的模型更容易被盜用,但除非非常富有,否則很難進行操作,這減少了單邊主義詛咒的風險。Zog28資訊網(wǎng)——每日最新資訊28at.com

擴展可解釋性更容易還是更難;尚不確定。Zog28資訊網(wǎng)——每日最新資訊28at.com

模型可能會更多地接受強化學習(RL),但這將主要是「基于過程」的,因此可能更安全,前提是禁止非語言的 CoT。Zog28資訊網(wǎng)——每日最新資訊28at.com

出口管制可能需要調(diào)整,以應對專用推理硬件。Zog28資訊網(wǎng)——每日最新資訊28at.com

AGI 時間表

o1 和 o3 的發(fā)布,對 AGI 時間表的預測的影響并不大。Zog28資訊網(wǎng)——每日最新資訊28at.com

Metaculus 的「強 AGI」預測似乎因為 o3 的發(fā)布而提前了一年,預計在 2031 年中期實現(xiàn);然而,自 2023 年 3 月以來,該預測一直在 2031 到 2033 年之間波動。Zog28資訊網(wǎng)——每日最新資訊28at.com

Manifold Market 的「AGI 何時到來?」也提前了一年,從 2030 年調(diào)整為 2029 年,但最近這一預測也在波動。Zog28資訊網(wǎng)——每日最新資訊28at.com

很有可能,這些預測平臺已經(jīng)在某種程度上考慮了推理計算擴展的影響,因為思維鏈并不是一項新技術(shù),即使通過 RL 增強。Zog28資訊網(wǎng)——每日最新資訊28at.com

總體來說,Ryan Kidd 認為他也沒有比這些預測平臺當前預測更好的見解。Zog28資訊網(wǎng)——每日最新資訊28at.com

部署問題

在《AI Could Defeat All Of Us Combined》中,Holden Karnofsky 描述了一種模棱兩可的風險威脅模型。Zog28資訊網(wǎng)——每日最新資訊28at.com

在此模型中,一群人類水平的 AI,憑借更快的認知速度和更好的協(xié)調(diào)能力超過了人類,而非依賴于定性上的超級智能能力。Zog28資訊網(wǎng)——每日最新資訊28at.com

這個情景的前提是,「一旦第一個人類水平的 AI 系統(tǒng)被創(chuàng)造出來,創(chuàng)造它的人,可以利用創(chuàng)造它所需要的相同計算能力,運行數(shù)億個副本,每個副本大約運行一年。」Zog28資訊網(wǎng)——每日最新資訊28at.com

如果第一個 AGI 的運行成本和 o3-high 的成本一樣(約 3000 美元 / 任務),總成本至少要 3000 億美元,那么這個威脅模型似乎就不那么可信了。Zog28資訊網(wǎng)——每日最新資訊28at.com

因此,Ryan Kidd 博士對「部署問題」問題的擔憂較小,即一旦經(jīng)過昂貴的訓練,短期模型就可以廉價地部署,從而產(chǎn)生巨大影響。Zog28資訊網(wǎng)——每日最新資訊28at.com

這在一定程度上減輕了他對「集體」或「高速」超級智能的擔憂,同時略微提升了對「定性」超級智能的關(guān)注,至少對于第一代 AGI 系統(tǒng)而言。Zog28資訊網(wǎng)——每日最新資訊28at.com

監(jiān)督思維鏈

如果模型的更多認知,是以人類可解釋的思維鏈(CoT)形式嵌入,而非內(nèi)部激活,這似乎是通過監(jiān)督來促進 AI 安全性的好消息!Zog28資訊網(wǎng)——每日最新資訊28at.com

盡管 CoT 對模型推理的描述并不總是真實或準確,但這一點可能得到改進。Zog28資訊網(wǎng)——每日最新資訊28at.com

Ryan Kidd 也對 LLM 輔助的紅隊成員持樂觀態(tài)度,他們能夠防止隱秘的陰謀,或者至少限制可能秘密實施的計劃的復雜度,前提是有強有力的 AI 控制措施Zog28資訊網(wǎng)——每日最新資訊28at.com

從這個角度來看,推理計算擴展范式似乎非常有利于 AI 安全,前提是有足夠的 CoT 監(jiān)督。Zog28資訊網(wǎng)——每日最新資訊28at.com

不幸的是,像 Meta 的 Coconut(「連續(xù)思維鏈」)這樣的技術(shù)可能很快就會應用于前沿模型,連續(xù)推理可以不使用語言作為中介狀態(tài)。Zog28資訊網(wǎng)——每日最新資訊28at.com

盡管這些技術(shù)可能帶來性能上的優(yōu)勢,但它們可能會在 AI 安全性上帶來巨大的隱患。Zog28資訊網(wǎng)——每日最新資訊28at.com

正如 Marius Hobbhahn 所說:「如果為了微小的性能提升,而犧牲了可讀的 CoT,那簡直是在自毀前程。」Zog28資訊網(wǎng)——每日最新資訊28at.com

然而,考慮到用戶看不到 o1 的 CoT,尚不確定是否能知道非語言 CoT 被部署的可能性,除非通過對抗性攻擊揭示這一點。Zog28資訊網(wǎng)——每日最新資訊28at.com

AGI 來了

美國 AI 作家和研究員 Gwern Branwen,則認為 Ryan Kidd 遺漏了一個重要方面:像 o1 這樣的模型的主要目的之一不是將其部署,而是生成下一個模型的訓練數(shù)據(jù)。Zog28資訊網(wǎng)——每日最新資訊28at.com

o1 解決的每一個問題現(xiàn)在都是 o3 的一個訓練數(shù)據(jù)點(例如,任何一個 o1 會話最終找到正確答案的例子,都來訓練更精細的直覺)。Zog28資訊網(wǎng)——每日最新資訊28at.com

這意味著這里的擴展范式,可能最終看起來很像當前的訓練時范式:大量的大型數(shù)據(jù)中心,在努力訓練一個擁有最高智能的最終前沿模型,并以低搜索的方式使用,并且會被轉(zhuǎn)化為更小更便宜的模型,用于那些低搜索或無搜索的用例。Zog28資訊網(wǎng)——每日最新資訊28at.com

對于這些大型數(shù)據(jù)中心來說,工作負載可能幾乎完全與搜索相關(guān)(因為與實際的微調(diào)相比,推出模型的成本低廉且簡單),但這對其他人來說并不重要;就像之前一樣,所看到的基本是,使用高端 GPU 和大量電力,等待 3 到 6 個月,最終一個更智能的 AI 出現(xiàn)。Zog28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 部署了 o1-pro,而不是將其保持為私有,并將計算資源投資于更多的 o3 訓練等自舉過程。Zog28資訊網(wǎng)——每日最新資訊28at.com

Gwern Branwen 對此有點驚訝。Zog28資訊網(wǎng)——每日最新資訊28at.com

顯然,類似的事情也發(fā)生在 Anthropic 和 Claude-3.6-opus 上 —— 它并沒有「失敗」,他們只是選擇將其保持為私有,并將其蒸餾成一個小而便宜、但又奇怪地聰明的 Claude-3.6-sonnet。Zog28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 突破「臨界點」Zog28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 的成員突然在 Twitter 上變得有些奇怪、甚至有些欣喜若狂,原因可能就是看到從原始 4o 模型到 o3(以及現(xiàn)在的狀態(tài))的改進。Zog28資訊網(wǎng)——每日最新資訊28at.com

這就像觀看 AlphaGo 在圍棋中等國際排名:它一直在上升…… 上升…… 再上升……Zog28資訊網(wǎng)——每日最新資訊28at.com

可能他們覺得自己「突破了」,終于跨過了臨界點:從單純的前沿 AI 工作,幾乎每個人幾年后都會復制的那種,跨越到起飛階段 —— 破解了智能的關(guān)鍵,以至 o4 或 o5 將能夠自動化 AI 研發(fā),并完成剩下的部分。Zog28資訊網(wǎng)——每日最新資訊28at.com

2024 年 11 月,阿爾特曼表示:Zog28資訊網(wǎng)——每日最新資訊28at.com

我可以看到一條路徑,我們正在做的工作會繼續(xù)加速增長,過去三年取得的進展將繼續(xù)在未來三年、六年、九年或更長時間里繼續(xù)下去。Zog28資訊網(wǎng)——每日最新資訊28at.com

不久卻又改口:Zog28資訊網(wǎng)——每日最新資訊28at.com

我們現(xiàn)在非常確信地知道如何構(gòu)建傳統(tǒng)意義上的 AGI…… 我們開始將目標超越這一點,邁向真正意義上的超級智能。我們很喜歡我們目前的產(chǎn)品,但我們是為了美好的未來。通過超級智能,我們可以做任何事情。Zog28資訊網(wǎng)——每日最新資訊28at.com

而其他 AI 實驗室卻只能望洋興嘆:當超級智能研究能夠自給自足時,根本無法獲得所需的大型計算設(shè)備來競爭。Zog28資訊網(wǎng)——每日最新資訊28at.com

最終 OpenAI 可能吃下整個 AI 市場。Zog28資訊網(wǎng)——每日最新資訊28at.com

畢竟 AlphaGo / Zero 模型不僅遠超人類,而且運行成本也非常低。僅僅搜索幾步就能達到超人類的實力;即使是僅僅前向傳遞,已接近職業(yè)人類的水平!Zog28資訊網(wǎng)——每日最新資訊28at.com

如果看一下下文中的相關(guān)擴展曲線,會發(fā)現(xiàn)原因其實顯而易見。Zog28資訊網(wǎng)——每日最新資訊28at.com

Zog28資訊網(wǎng)——每日最新資訊28at.com

論文鏈接:https://arxiv.org/pdf/2104.03113Zog28資訊網(wǎng)——每日最新資訊28at.com

繼續(xù)蒸餾Zog28資訊網(wǎng)——每日最新資訊28at.com

推理時的搜索就像是一種刺激劑,能立即提升分數(shù),但很快就會達到極限。Zog28資訊網(wǎng)——每日最新資訊28at.com

很快,你必須使用更智能的模型來改善搜索本身,而不是做更多的搜索。Zog28資訊網(wǎng)——每日最新資訊28at.com

如果單純的搜索能如此有效,那國際象棋在 1960 年代就能解決了。Zog28資訊網(wǎng)——每日最新資訊28at.com

而實際上,到 1997 年 5 月,計算機才擊敗了國際象棋世界冠軍,但超過國際象棋大師的搜索速度并不難。Zog28資訊網(wǎng)——每日最新資訊28at.com

如果你想要寫著「Hello World」的文本,一群在打字機上的猴子可能就足夠了;但如果想要在宇宙毀滅之前,得到《哈姆雷特》的全文,你最好現(xiàn)在就開始去克隆莎士比亞。Zog28資訊網(wǎng)——每日最新資訊28at.com

幸運的是,如果你手頭有需要的訓練數(shù)據(jù)和模型,那可以用來創(chuàng)建一個更聰明的模型:聰明到可以寫出媲美甚至超越莎士比亞的作品。Zog28資訊網(wǎng)——每日最新資訊28at.com

2024 年 12 月 20 日,阿爾特曼強調(diào):Zog28資訊網(wǎng)——每日最新資訊28at.com

在今天的噪聲中,似乎有些消息被忽略了:Zog28資訊網(wǎng)——每日最新資訊28at.com

在編程任務中,o3-mini 將超過 o1 的表現(xiàn),而且成本還要少很多!Zog28資訊網(wǎng)——每日最新資訊28at.com

我預計這一趨勢將持續(xù)下去,但也預見到為獲得邊際的更多性能而付出指數(shù)級增加的資金,這將變得非常奇怪。Zog28資訊網(wǎng)——每日最新資訊28at.com

因此,你可以花錢來改善模型在某些輸出上的表現(xiàn)…… 但「你」可能是「AI 實驗室」,你只是花錢去改善模型本身,而不僅僅是為了某個一般問題的臨時輸出。Zog28資訊網(wǎng)——每日最新資訊28at.com

這意味著外部人員可能永遠看不到中間模型(就像圍棋玩家無法看到 AlphaZero 訓練過程中第三步的隨機檢查點)。Zog28資訊網(wǎng)——每日最新資訊28at.com

而且,如果「部署成本是現(xiàn)在的 1000 倍」成立,這也是不部署的一個理由。Zog28資訊網(wǎng)——每日最新資訊28at.com

為什么要浪費這些計算資源來服務外部客戶,而不繼續(xù)訓練,將其蒸餾回去,最終部署一個成本為 100 倍、然后 10 倍、1 倍,甚至低于 1 倍的更優(yōu)模型呢?Zog28資訊網(wǎng)——每日最新資訊28at.com

因此,一旦考慮到所有的二階效應和新工作流,搜索 / 測試時間范式可能會看起來出奇地熟悉。Zog28資訊網(wǎng)——每日最新資訊28at.com

參考資料:Zog28資訊網(wǎng)——每日最新資訊28at.com

https://x.com/emollick/status/1879574043340460256Zog28資訊網(wǎng)——每日最新資訊28at.com

https://x.com/slow_developer/status/1879952568614547901Zog28資訊網(wǎng)——每日最新資訊28at.com

https://x.com/kimmonismus/status/1879961110507581839Zog28資訊網(wǎng)——每日最新資訊28at.com

https://www.lesswrong.com/posts/HiTjDZyWdLEGCDzqu/implications-of-the-inference-scaling-paradigm-for-ai-safetyZog28資訊網(wǎng)——每日最新資訊28at.com

https://x.com/jeremyphoward/status/1879691404232015942Zog28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:新智元(ID:AI_era)Zog28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-9504-0.htmlOpenAI 員工“瘋狂暗示”內(nèi)部已成功開發(fā) ASI?被曝訓出 GPT-5 但雪藏

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 美政府力邀 ChatGPT 產(chǎn)品主管出庭作證,希望增強對谷歌的反壟斷指控

下一篇: OpenAI 阿爾特曼:計劃幾周內(nèi)推出 o3 mini 推理模型

標簽:
  • 熱門焦點
Top