字節(jié)跳動(dòng)旗下的豆包大模型團(tuán)隊(duì)近日傳來重要消息,他們正式推出了首個(gè)多語言軟件錯(cuò)誤修正(SWE)數(shù)據(jù)集——Multi-SWE-bench。這一創(chuàng)新工具旨在評(píng)估和提升大型語言模型在自動(dòng)修復(fù)代碼錯(cuò)誤方面的能力。
Multi-SWE-bench是在原有SWE-bench的基礎(chǔ)上拓展而來,其最大亮點(diǎn)在于覆蓋了除Python外的七種主流編程語言,包括Java、Go、Rust、C、C++、Type以及再次提及的Java(此處原文可能有誤,或?yàn)槠渌Z言,如Typescript,但為保持原文信息完整性,按原文轉(zhuǎn)述)。這一數(shù)據(jù)集真正實(shí)現(xiàn)了面向“全棧工程”的評(píng)測基準(zhǔn),為開發(fā)者提供了更為全面的評(píng)估工具。
據(jù)悉,Multi-SWE-bench共包含1632個(gè)實(shí)例,這些實(shí)例均源自GitHub上的issue,且經(jīng)過嚴(yán)格的測試標(biāo)準(zhǔn)和專業(yè)開發(fā)者的精心篩選。每個(gè)樣本都確保了問題描述的清晰性、修復(fù)補(bǔ)丁的正確性以及可復(fù)現(xiàn)的運(yùn)行測試環(huán)境,從而保證了數(shù)據(jù)集的高質(zhì)量。
豆包大模型團(tuán)隊(duì)表示,他們希望Multi-SWE-bench能夠成為大型語言模型在多種主流編程語言與真實(shí)代碼環(huán)境中的系統(tǒng)性評(píng)測基準(zhǔn)。這一工具將推動(dòng)自動(dòng)編程能力向更加實(shí)用、更加工程化的方向發(fā)展,為開發(fā)者帶來實(shí)質(zhì)性的幫助。
與以往主要聚焦于Python單語言任務(wù)的數(shù)據(jù)集相比,Multi-SWE-bench更加貼近現(xiàn)實(shí)中的多語言開發(fā)場景。它不僅能夠更準(zhǔn)確地反映當(dāng)前模型在“自動(dòng)化軟件工程”方向上的實(shí)際能力邊界,還為開發(fā)者提供了更為全面、更為實(shí)用的評(píng)測工具。
本文鏈接:http://www.tebozhan.com/showinfo-26-143201-0.html豆包大模型開源Multi-SWE-bench,多語言“自動(dòng)修Bug”能力能否更上一層樓?
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 追風(fēng)者Evolv S2機(jī)箱曝光:延續(xù)X2三面玻璃設(shè)計(jì),更小更精致