當前位置：首頁 > 元宇宙 > AI

大模型實時打《街霸》捉對 PK：GPT-4 不敵 3.5，新型 Benchmark 火了

來源：責編：時間：2024-04-03 09:03:33 185觀看

導讀讓大模型直接操縱格斗游戲《街霸》里的角色，捉對 PK，誰更能打？GitHub 上一種你沒有見過的船新 Benchmark 火了。與 llmsys 大模型競技場中，兩個大模型分別輸出答案，再由人類評分不同 —— 街霸 Bench 引入了兩個 A

讓大模型直接操縱格斗游戲《街霸》里的角色，捉對 PK，誰更能打？

GitHub 上一種你沒有見過的船新 Benchmark 火了。

與 llmsys 大模型競技場中，兩個大模型分別輸出答案，再由人類評分不同 —— 街霸 Bench 引入了兩個 AI 之間的交互，且由游戲引擎中確定的規則評判勝負。

這種新玩法吸引了不少網友來圍觀。

由于項目是在 Mistral 舉辦的黑客馬拉松活動上開發，所以開發者只使用 OpenAI 和 Mistral 系列模型進行了測試。

排名結果也很出人意料。經過 342 場對戰后，根據棋類、電競常用的 ELO 算法得出的排行榜如下：

最新版 gpt-3.5-turbo 成績斷崖式領先，Mistral 小杯排第二。更小的模型超過了更大的如 GPT-4 和 Mistral 中杯大杯。

開發者認為，這種新型基準測試評估的是大模型理解環境并根據特定情況采取行動的能力。

與傳統的強化學習也有所不同，強化學習模型相當于根據獎勵函數“盲目地”采取不同行動，但大模型完全了解自身處境并有目的的采取行動。

考驗 AI 的動態決策力

AI 想在格斗游戲里稱王，需要哪些硬實力呢？開發者給出幾個標準:

反應要快：格斗游戲講究實時操作，猶豫就是敗北

腦子要靈：高手應該預判對手幾十步，未雨綢繆

思路要野：常規套路人人會，出奇制勝才是制勝法寶

適者生存：從失敗中吸取教訓并調整策略

久經考驗：一局定勝負不說明問題，真正的高手能保持穩定的勝率

具體玩法如下：

每個大模型控制一個游戲角色，程序向大模型發送屏幕畫面的文本描述，大模型根據雙方血量、怒氣值、位置、上一個動作、對手的上一個動作等信息做出最優決策。

第一個挑戰是定位人物在場景中的位置，通過檢測像素顏色來判斷。

由于目前大模型數學能力還都不太行，直接發送坐標值效果不好，最終選擇了將位置信息改寫成自然語言描述。

所以對于 AI 來說，實際上他們在玩的是一種奇怪的文字冒險游戲。

再把大模型生成的動作招式映射成按鍵組合，就能發送給游戲模擬器執行了。

在試驗中發現，大模型可以學會復雜的行為，比如僅在對手靠近時才攻擊，可能的情況下使用特殊招式，以及通過跳躍來拉開距離。

從結果上可以看出，與其他測試方法不同，在這個規則下似乎更大的模型表現越差。

開發者對此解釋到：

目標是評估大模型的實時決策能力，規則上允許 AI 提前生成 3-5 個動作，更大的模型能提前生成更多的動作，但也需要更長的時間。

在推理上的延遲差距是有意保留的，但后續或許會加入其他選項。

后續也有用戶提交了流行開源模型的對戰結果，在 7B 及以下量級的戰斗中，還是 7B 模型排名更靠前。

從這個角度看，這種新型基準測試為評估大模型的實用性提供了新思路。

現實世界的應用往往比聊天機器人復雜得多，需要模型具備快速理解、動態規劃的本領。

正如開發者所說，想要贏，要在速度和精度之間做好權衡。

GitHub 項目：

https://github.com/OpenGenerativeAI/llm-colosseum

參考鏈接：

[1]https://x.com/nicolasoulianov/status/1772291483325878709

[2]https://x.com/justinlin610/status/1774117947235324087

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨

本文鏈接：http://www.tebozhan.com/showinfo-45-3817-0.html大模型實時打《街霸》捉對 PK：GPT-4 不敵 3.5，新型 Benchmark 火了

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI攜Sora進軍好萊塢，與電影巨頭共商AI未來

下一篇：消息稱 OpenAI 將于本月在日本東京設立亞洲首個辦事處

標簽：

熱門焦點

數字人的新革命，BAT的“沖高”戰場

來源：劉曠ChatGPT橫空出世，讓人們看到了數字人的另一種可能，將ChatGPT與虛擬數字人融合，研發出更加智能化、擬人化的虛擬數字人成為數字人廠商的新命題、新方向。2月份，嶺南股份
【量子位】虛擬數字人深度產業報告 | 元宇宙Meta洞見

虛擬數字人行業未來的主要驅動力包括：用戶代際變化，新一代消費者對內容消費和虛擬世界更為渴求；虛擬數字人相關技術門檻相對降低，成本有所回落；資本熱度上升，受Metav
字節、騰訊、網易鏖戰元宇宙背后，大廠究竟在爭奪什么？

正當互聯網商業躊躇不前，互聯網大廠為了在存量中的增長擠破頭皮之時，元宇宙的概念被資本點燃。先是Facebook更名Meta正式進軍元宇宙，然后字節跳動收購了一家VR硬
網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

【《原神》開發商米哈游宣布創立元宇宙品牌】《原神》開發商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通過各種娛樂服務為全球玩家創造并提供沉浸式虛擬世界體
Kitten Coup社區反轉Cool Kittens NFT騙局

當狂熱的加密愛好者將金錢投入到NFT圖片時，渾水摸魚的騙局隨之而來，Cool Kittens NFT便是其中一個作惡者，該項目于去年11月在Sonala鏈上啟動小貓形象的NFT鑄造及
知識產權可能在元宇宙中“消失”？

開篇老雅痞先來劃重點：一些公司開始采取積極的方式來保護他們在元宇宙的知識產權。耐克、愛馬仕和米拉麥克斯最近提起訴訟，聲稱NFT侵犯了他們的知識產權。Inside
音樂家如何利用NFTs來提高歌迷參與度

"音樂是一種語言，不以特定的文字說話。它用情感說話，如果它在骨子里，它就在骨子里。" - Keith Richards音樂激勵著我們，使我們流淚，使我們充滿狂喜，并撫慰我們的靈魂
盤點9個主流元宇宙平臺，你都知道哪些？

隨著NFT的持續升溫，它也加入了現在的元宇宙浪潮。本文介紹元宇宙的基本概念以及九個最流行的元宇宙NFT平臺，如Decentraland、sandbox等。用熟悉的語言學習以太
冬奧會數字收藏品升溫，市場再現“一墩難求”

根據公開信息顯示，國際奧委會官方授權的冰墩墩數字盲盒于北京時間2月12日凌晨在nWayPlay平臺發售，總數為500個，每個99美元，每人限購5個。此外，不同的奧運徽章數字藏

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

大模型實時打《街霸》捉對 PK：GPT-4 不敵 3.5，新型 Benchmark 火了

數字人的新革命，BAT的“沖高”戰場

【量子位】虛擬數字人深度產業報告 | 元宇宙Meta洞見

字節、騰訊、網易鏖戰元宇宙背后，大廠究竟在爭奪什么？

網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

Kitten Coup社區反轉Cool Kittens NFT騙局

知識產權可能在元宇宙中“消失”？

音樂家如何利用NFTs來提高歌迷參與度

盤點9個主流元宇宙平臺，你都知道哪些？

冬奧會數字收藏品升溫，市場再現“一墩難求”

最新推薦

“任何國產元宇宙都是假元宇宙”

Niantic與索尼在音頻AR領域達成合作；?蘋果為Apple Park申請形象化商標

借VR產業東風，江西搶灘布局“元宇宙”

技術賦能，國內首家寵物元宇宙平臺“Pet Meta”開啟虛擬養寵新方式

NFT高玩必備：NFT分析工具大盤點

元宇宙不完全是想出來的，而是實打實做出來的

猜你喜歡

熱門推薦

相關資訊

大模型實時打《街霸》捉對 PK：GPT-4 不敵 3.5，新型 Benchmark 火了

最新推薦

猜你喜歡

熱門推薦

相關資訊

大模型實時打《街霸》捉對 PK：GPT-4 不敵 3.5，新型 Benchmark 火了