當前位置：首頁 > 元宇宙 > AI

微軟研究：AI 編程助手軟件調試能力堪憂

來源：責編：時間：2025-04-15 07:12:31 82觀看

導讀 4 月 13 日消息，OpenAI、Anthropic 和其他頂尖人工智能實驗室的人工智能模型越來越多地被用于協助編程任務，谷歌首席執行官桑達爾?皮查伊在去年 10 月透露，該公司 25% 的新代碼由 AI 生成；而 Meta 首席執行官馬

4 月 13 日消息，OpenAI、Anthropic 和其他頂尖人工智能實驗室的人工智能模型越來越多地被用于協助編程任務，谷歌首席執行官桑達爾?皮查伊在去年 10 月透露，該公司 25% 的新代碼由 AI 生成；而 Meta 首席執行官馬克?扎克伯格也表達了在公司內部廣泛部署 AI 編碼模型的雄心壯志。

然而，即便是一些目前最先進的 AI 模型，在解決軟件漏洞這一問題上，仍然無法與經驗豐富的開發者相媲美。微軟研究院（微軟的研發部門）的一項新研究表明，包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在內的多款模型，在一個名為 SWE-bench Lite 的軟件開發基準測試中，無法成功調試許多問題。

研究的共同作者們測試了九種不同的模型，這些模型作為“基于單個提示詞的智能體”的核心，能夠使用包括 Python 調試器在內的一系列調試工具。他們給這個智能體分配了一組經過篩選的 300 項軟件調試任務，這些任務均來自 SWE-bench Lite。

據共同作者們介紹，即使配備了更強大、更先進的模型，他們的智能體成功完成的調試任務也極少超過一半。其中，Claude 3.7 Sonnet 的平均成功率最高，為 48.4%；其次是 OpenAI 的 o1，成功率為 30.2%；而 o3-mini 的成功率為 22.1%。

為何這些 AI 模型的表現如此不盡如人意？部分模型在使用可用的調試工具以及理解不同工具如何幫助解決不同問題方面存在困難。然而，共同作者們認為，更大的問題在于數據稀缺。他們推測，當前模型的訓練數據中，缺乏足夠多的“順序決策過程”數據，即人類調試痕跡的數據。

“我們堅信，訓練或微調這些模型可以使它們成為更好的交互式調試器。”共同作者們在研究報告中寫道，“然而，這需要專門的數據來滿足此類模型訓練的需求，例如記錄智能體與調試器交互以收集必要信息、隨后提出漏洞修復建議的軌跡數據。”

這一發現其實并不令人意外。許多研究都表明，代碼生成型 AI 往往會引入安全漏洞和錯誤，這是由于它們在理解編程邏輯等領域的薄弱環節所導致的。最近對一款流行的 AI 編程工具 Devin 的評估發現，它只能完成 20 項編程測試中的 3 項。

不過，微軟的這項研究是迄今為止對模型在這一持續存在問題領域最為詳細的剖析之一。盡管它可能不會削弱投資者對 AI 輔助編程工具的熱情，但愿它能讓開發者及其上級領導三思而后行，不再輕易將編程工作完全交給 AI 來主導。

注意到，越來越多的科技界領袖對 AI 會取代編程工作的觀點提出了質疑。微軟聯合創始人比爾?蓋茨曾表示，他認為編程作為一種職業將會長期存在。與他持相同觀點的還有 Replit 首席執行官阿姆賈德?馬薩德、 Okta 首席執行官托德?麥金農以及 IBM 首席執行官阿爾溫德?克里希納。

本文鏈接：http://www.tebozhan.com/showinfo-45-12239-0.html微軟研究：AI 編程助手軟件調試能力堪憂

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：美國教育部長出席峰會鬧烏龍：多次將 AI 誤稱為 A1

下一篇： AI 購物應用 Nate 創始人被控欺詐：人工冒充 AI 騙取 5000 萬美元投資

標簽：

熱門焦點

中文在線的“元宇宙”故事，資本聽膩了？

被譽為“元宇宙”龍頭之一的中文在線，這下尷尬了。2022年1月11日，中國移動通信聯合會元宇宙產業委員會揭牌，接納涉足“元宇宙”的8家上市公司，包括中青寶、天下秀
2022年最具關注的9個頭像NFT項目

什么是 PFP NFT 項目？PFP NFT （個人資料圖片NFT）是一組獨特的數字收藏品，人們用來在互聯網平臺上代表自己。這些數字藝術作品通常是一系列可作為頭像的角色，在 Twit
8個最適合藝術家發行NFT的交易市場

近年來，加密風靡全球。加密圈最令人興奮的方面之一是它能夠用于創建稱為NFT 的數字資產。從 CyberKitties 到 Cyber Galleries，NFT 已成為藝術家和藝術鑒賞家的
冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

《區塊鏈日報》記者查證，近日來冰墩墩數字藏品交易數量出現大幅下滑，而所謂的暴漲千倍更是有價無市的自嗨。昨日，北京冬奧會正式閉幕。在這屆冬奧會上，吉祥物“冰
好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

在Moviecoin.com平臺上，有一部電影設定了一個前所未有的目標，即通過預售NFT獲得100%的全額融資，這部電影就是馬克·奧康納(Mark O’connor)執導的《Oui Cannes》，
餐桌上怎么變出元宇宙？

作者：星影“元宇宙讓餐飲業脫胎換骨。”實體的餐飲與虛擬的元宇宙，看起來風馬牛不相及，但最近全世界的餐飲企業都掀起了一股注冊元宇宙商標的熱潮。2月初，全球最大
“我沒搞懂元宇宙，但一天能賺9w塊”

作者：鄭宇軒最近幾個月，“元宇宙”爆火，除了 Facebook 改名為 Meta 高調進軍元宇宙外， BAT 為代表的大廠紛紛著手“元宇宙”新業務。剎那之間，元宇宙成為新風口，除了
韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

財聯社|區塊鏈日報28日訊今日《元宇宙新鮮事》有：杭州第十三次黨代會報告指出抓緊布局元宇宙等未來產業；韓國科學信息通信技術部宣布投資1.85億美元建立元宇宙
下一個黃金賽道？NFT的碎片化!

碎片化可能是我們一生中最重要的一個投資趨勢，碎片化本身并不新鮮。它已經存在了400年之久。早在1602年，荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

微軟研究：AI 編程助手軟件調試能力堪憂

中文在線的“元宇宙”故事，資本聽膩了？

2022年最具關注的9個頭像NFT項目

8個最適合藝術家發行NFT的交易市場

冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

餐桌上怎么變出元宇宙？

“我沒搞懂元宇宙，但一天能賺9w塊”

韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

下一個黃金賽道？NFT的碎片化!

最新推薦

上、中、下游加深融合，搭建元宇宙產業全景

星展銀行(DBS)計劃推出零售數字資產交易服務

高通成立歐洲XR實驗室；ICICB計劃進軍元宇宙......

又一家數字營銷公司入局元宇宙，國內首個藝術元宇宙社區“Meta彼岸”上線

虛擬人行業研究報告

我們離元宇宙的實現只差一副眼鏡？

猜你喜歡

熱門推薦

相關資訊