當前位置：首頁 > 科技 > 網絡

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

來源：責編：時間：2024-08-13 16:50:45 149觀看

導讀繼Devin之后，又一個AI軟件工程師被刷屏了——它叫Genie，號稱目前地表強，已經可以像人一樣思考和行動了！那么這個“地表強”，到底強到什么程度？先來看下評測分數。在權威榜單SWE-Bench中，Genie

繼Devin之后，又一個AI軟件工程師被刷屏了——

它叫Genie，號稱目前地表強，已經可以像人一樣思考和行動了！

那么這個“地表強”，到底強到什么程度？

先來看下評測分數。

在權威榜單SWE-Bench中，Genie以解決了30.07%問題的成績奪得榜首。

（SWE-Bench是一個用來評估大模型解決現實中軟件問題的基準。）

而這個成績可謂是遙遙領先第二名19.27%，解鎖了提升SOTA的大增幅——57%！

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

至于Genie的實際效果，用團隊的話來說就是：

它可以做到像人類工程師一樣解決現實生活中的軟件問題。

首先，你可以用4種方式讓Genie開始工作，分別是提示詞、GitHub Issue、Linear Ticket或者API。

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

以解決GitHub Issue為例，先喂給Genie一個repo的鏈接，它就開始自動解析問題了：

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

Genie會自動迭代思考如果想要解決這個問題它都需要哪些文件，直到它覺得找到了自己滿意的為止：

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

緊接著，它將對問題做一個自動迭代分析的過程：

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

然后Genie就開始“唰唰唰”地自動寫+跑代碼了：

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

如果運行代碼過程中出現bug，Genie會只針對出問題的地方再重復分析、寫代碼和運行的過程，直至跑通為止。

而整個過程，僅僅耗時84秒！

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

用團隊的話來說：

Genie已經觀察并學習人類程序員如何解決軟件問題的次數達到了數百萬次。

這是任何一個人類程序員一輩子都無法達到的數量。

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

但更令人意想不到的是，Genie背后的團隊——Cosine，才僅僅5人。

而且CEO Alistair還發文感謝OpenAI：

沒有你們，我們做不出來Genie。

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

那么Cosine團隊，究竟是如何打造Genie的呢。

強AI工程師是如何煉成的？

Genie的主要特點，是能夠模仿人類工程師的認知過程、邏輯和工作流。

為做到這一點，Genie團隊透露過去一年收集了一個包含真實人類程序員開發活動的數據集。

其中不僅使用了成果分析、靜態分析、自我對弈、逐步驗證等方法，還用到了基于大量標記數據訓練的AI模型。好處是，當基礎模型能力提升時，它們能夠提取的數據質量也會相應提高。

終Genie使用該專有數據進行訓練。

數據集中編碼了人類推理的完整過程，包括完美的信息溯源、增量知識發現，還有基于軟件工程師實際工作案例的逐步決策過程。

Genie的推理過程包括規劃、檢索、代碼編寫和代碼運行四個主要步驟，突破了其它AI工程師依靠在基礎模型之上添加網頁瀏覽器、代碼解釋器等額外工具的限制，能夠像人一樣處理多樣化的、高度情境的、前所未見的問題。

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

這種訓練方法，讓網友們立刻想到，之前Karpathy也提出的類似想法：

對于LLM來說，理想的訓練數據并不是你所寫的內容本身，而是你在寫作過程中的完整思考過程和每一個編輯動作。然而，我們只能盡力利用現有的資源。

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

除此之外，Genie訓練中還引入了自我改進機制。

初始訓練數據多為可正常運行的沒有錯誤的代碼，導致Genie導致難以應對錯誤情況。為解決這個問題，團隊使用初代版本的Genie生成包含錯誤的合成數據，然后用這些數據訓練下一版模型。

具體來說，使用舊版本Genie提出解決方案，如果解決方案錯誤，就利用掌握的任務終狀態來教它從當前狀態達到正確狀態。

不斷重復這一過程，Genie提出的初始解決方案逐漸變得更準確，在多數情況下能直接給出正確答案，即使出錯也只需在數據集中作較少的修正。

Genie能力提升的另一大關鍵，在于OpenAI提供的大模型支持。

團隊表示，初開發Genie時，只能訪問微調16-32k范圍內的短上下文模型，他們用這些模型進行了大量早期開發，用超1億token的數據訓練模型，雖然發現設計的架構有一定優勢，但從根本上受限于模型在特定時間內可以處理的信息量。

嘗試了各種壓縮/分塊方法后，唯一的解決方法就是使用更大上下文的模型。

OpenAI提供了長上下文模型支持，新版本的Genie經過了數十億token的數據訓練。

團隊認為，相比超參數調整和數據量，數據的質量才是關鍵。因此他們還在數據混合方面進行了大量實驗，包括語言、任務類型、任務長度等多個維度，以下是訓練Genie的不同編程語言數據的占比：

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

還有不同類型實例的數據占比：

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

只有5個人的團隊

正如我們在上文提到的，Cosine這個初創團隊人數目前僅僅為5人。

在官網的介紹中，他們也非常直接的將自己形容為：

Small but mighty.雖小但有力。

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

從介紹來看，成員有的是從獨角獸企業出身，有的擁有管理全球團隊的經驗，甚至還有從8歲就開始編程的。

但Cosine初成立之際是僅有3人，他們的目標是想把人類推理這件事兒給搞明白。

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

值得一提的是，團隊成員中還有一位是華人，Yang Li，是Cosine的聯合創始人，在2021年登上過福布斯30 under 30。

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

除此之外，對于Genie本身，CEO Alistair還表示：

早在2022年我們就開始構想Genie了，但當時從技術角度來說是不可行的。

直到過去半年多來，隨著大模型的逐步成熟，Genie才能走入現實。

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

嗯，不得不說，大模型又立功了。

Genie目前是可以申請Waitlist了，感興趣的小伙伴可以戳文末鏈接~

Waitlist地址：https://cosine.sh/register

參考鏈接：[1]https://x.com/alistairpullen/status/1822981361608888619?s=46[2]https://cosine.sh/blog/genie-technical-report[3]https://cosine.sh/blog/state-of-the-art[4]https://x.com/AlistairPullen/status/1823030874579120223[5]https://x.com/yangli_

文章出處：量子位

本文鏈接：http://www.tebozhan.com/showinfo-17-107663-0.html強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：美國前總統直播時給iPhone用的充電寶亮了：來自中國品牌！

下一篇：唐尚珺放下清華執念上大學：曾經的夢想到大學再去追逐

標簽：

熱門焦點

石頭智能洗地機A10 Plus體驗：雙向自清潔治好了我的懶癌

一、前言和介紹專為家庭請假懶人而生的石頭科技在近日又帶來了自己的全新旗艦新品，石頭智能洗地機A10 Plus。從這個產品名上就不難看出，這次石頭推出的并不是常見的掃地機器
5月iOS設備性能榜：M1 M2依舊是榜單前五

和上個月一樣，沒有新品發布的iOS設備性能榜的上榜設備并沒有什么更替，僅僅只有跑分變化而產生的排名變動，剛剛開始的蘋果WWDC2023，推出的產品也依舊是新款Mac Pro、新款Mac Stu
服務存儲設計模式：Cache-Aside模式

Cache-Aside模式一種常用的緩存方式，通常是把數據從主存儲加載到KV緩存中，加速后續的訪問。在存在重復度的場景，Cache-Aside可以提升服務性能，降低底層存儲的壓力，缺點是緩存和底
得物效率前端微應用推進過程與思考

一、背景效率工程隨著業務的發展，組織規模的擴大，越來越多的企業開始意識到協作效率對于企業團隊的重要性，甚至是決定其在某個行業競爭中突圍的關鍵，是企業長久生存的根本。得物
Flowable工作流引擎的科普與實踐

一.引言當我們在日常工作和業務中需要進行各種審批流程時，可能會面臨一系列技術和業務上的挑戰。手動處理這些審批流程可能會導致開發成本的增加以及業務復雜度的上升。在這
小紅書1周漲粉49W+，我總結了小白可以用的N條漲粉筆記

作者：黃河懂運營一條性教育視頻，被54萬人“珍藏”是什么體驗？最近，情感博主@公主是用鮮花做的，火了！僅僅憑借一條視頻，光小紅書就有超過128萬人，為她瘋狂點贊！更瘋狂的是，這
華為Mate60標準版細節曝光：經典星環相機模組回歸

這段時間以來，關于華為新旗艦的爆料日漸密集。據此前多方爆料，今年華為將開始恢復一年雙旗艦戰略，除上半年推出的P60系列外，往年下半年的Mate系列也將
三星電子Q2營收60萬億韓元存儲業務營收同比仍下滑超過50%

7月27日消息，據外媒報道，從三星電子所發布的財報來看，他們主要利潤來源的存儲芯片業務在今年二季度仍不樂觀，營收同比仍在大幅下滑，所在的設備解決方案
聯想的ThinkBook Plus下一版曝光，鍵盤旁邊塞個平板

ThinkBook Plus 是聯想的一個特殊筆記本類別，它在封面放入了一塊墨水屏，也給人留下了較為深刻的印象。據有人爆料，聯想的下一款 ThinkBook Plus 可能更特殊，它

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考

石頭智能洗地機A10 Plus體驗：雙向自清潔治好了我的懶癌

5月iOS設備性能榜：M1 M2依舊是榜單前五

服務存儲設計模式：Cache-Aside模式

得物效率前端微應用推進過程與思考

Flowable工作流引擎的科普與實踐

小紅書1周漲粉49W+，我總結了小白可以用的N條漲粉筆記

華為Mate60標準版細節曝光：經典星環相機模組回歸

三星電子Q2營收60萬億韓元存儲業務營收同比仍下滑超過50%

聯想的ThinkBook Plus下一版曝光，鍵盤旁邊塞個平板

最新推薦

猜你喜歡

熱門推薦

相關資訊

強AI程序員砸飯碗：84秒跑通代碼 像人一樣思考

最新推薦

猜你喜歡

熱門推薦

相關資訊

強AI程序員砸飯碗：84秒跑通代碼像人一樣思考