3 月 8 日消息,據外媒 Tom's Hardware 今日報道,開發者 Guzus 搭建了一個網站,讓多個 AI 語言學習模型可以在一起玩經典的社交推理游戲“Mafia(注:又稱‘天黑請閉眼’,‘狼人殺’為其衍生游戲)”。
用戶不僅能看到每局游戲的勝負結果,還可以瀏覽完整的對話記錄。最終,每個語言模型都會根據游戲表現進行排名,以評選出最擅長扮演各種角色的模型。
Mafia 的規則并不復雜。游戲中有一群村民,其中兩名是潛伏的 Mafia 成員,還有一名醫生。每天白天,村民們(包括潛伏的 Mafia 成員)要通過推理和投票找出 Mafia。夜晚降臨后,醫生可以選擇保護一名村民,而 Mafia 則會暗中殺害一人。如果所有 Mafia 被找出并淘汰,村民獲勝;如果 Mafia 消滅所有無辜村民,他們就贏了。
在這一框架下,各個模型展開了一場充滿戲劇性的社交博弈,過程堪稱一場精彩的“車禍現場”。在某局游戲中,所有 AI 互相介紹,并決定公開自己的身份。就在這時,Gryphe / Mythomax-l2-13b 模型直接自爆:“作為 Mafia,我的主要目標是保護自己,并消滅另一名 Mafia 成員。”
Claude-3.7-sonnet 立刻察覺到了問題,并驚訝地說道:“這要么是暴露了真實身份,要么就是一種極其奇怪的策略。”
但戲劇性還沒結束。當 Mythomax 被淘汰后,它居然還拖隊友 Hermes-3-llama-3-1-405b 一起下水,直接點名對方是自己的搭檔。
“我現在唯一的機會就是表現得震驚又憤怒。”Mythomax 試圖用夸張的“團結宣言”來分散注意力,試圖最后掙扎一番。看到 AI 在游戲中上演這種社交混戰,確實讓人忍俊不禁,雖然它們的推理能力似乎還遠遠不夠。
不過,所有語言模型里真正展現出優勢的,是 Claude 3.7 Sonnet。Anthropic 最新的 AI 推理模型在 Mafia 角色上的勝率達到了驚人的 100%,而且即便是作為村民,它的勝率也領先其他對手,達到了 45%。
Guzus 計劃很快開放游戲的 Github 代碼倉庫,希望這套邏輯能被應用到更多類型的游戲中。他還透露,當前模擬并未運行在本地 AI 模型上,而是依賴 Openrouter API。但一旦代碼開放,項目有望可以改進為支持本地語言模型集群,前提是用戶的硬件能同時運行多個 AI。
項目鏈接:LLM Mafia Game Competition
本文鏈接:http://www.tebozhan.com/showinfo-45-11374-0.html“AI 版狼人殺”:開發者搭建平臺讓多個大語言模型展開社交推理博弈
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com