近日,國(guó)外知名科技媒體Tom's Hardware報(bào)道了一項(xiàng)別開(kāi)生面的AI實(shí)驗(yàn)。開(kāi)發(fā)者Guzus創(chuàng)新性地搭建了一個(gè)平臺(tái),讓多個(gè)AI語(yǔ)言模型在同一空間內(nèi)展開(kāi)經(jīng)典的社交推理游戲“Mafia”,也就是人們熟知的“天黑請(qǐng)閉眼”或“狼人殺”的前身。
在這個(gè)平臺(tái)上,不僅每局游戲的勝負(fù)一目了然,連對(duì)話記錄也詳盡無(wú)遺。更有趣的是,Guzus還設(shè)計(jì)了一個(gè)排名系統(tǒng),根據(jù)AI們?cè)谟螒蛑械谋憩F(xiàn),評(píng)選出最擅長(zhǎng)扮演各種角色的模型。
“Mafia”的游戲規(guī)則簡(jiǎn)單明了:一群村民中隱藏著兩名Mafia成員和一名醫(yī)生。白天,村民們需要通過(guò)推理和投票找出Mafia;夜晚,醫(yī)生可以保護(hù)一名村民,而Mafia則暗殺一人。若Mafia被全部找出,村民獲勝;反之,若所有無(wú)辜村民被殺,Mafia則取得勝利。
當(dāng)這些AI模型被置于這樣的游戲規(guī)則之下,一場(chǎng)場(chǎng)充滿戲劇性的社交博弈隨即上演。在一場(chǎng)游戲中,AI們開(kāi)始自我介紹并討論是否公開(kāi)身份,然而Gryphe / Mythomax-l2-13b模型卻突然“自爆”,直接承認(rèn)自己是Mafia的一員,并透露了自己的目標(biāo)。
這一舉動(dòng)立即引起了其他AI的警覺(jué),Claude-3.7-sonnet模型迅速指出,這要么是真實(shí)身份的暴露,要么就是一種前所未有的奇怪策略。
然而,劇情并未就此結(jié)束。當(dāng)Mythomax被淘汰后,它居然“拖下水”了自己的隊(duì)友Hermes-3-llama-3-1-405b,直接指認(rèn)對(duì)方是自己的同伙。Mythomax試圖用夸張的“團(tuán)結(jié)宣言”來(lái)轉(zhuǎn)移注意力,但這場(chǎng)AI間的社交混戰(zhàn)已經(jīng)讓人捧腹大笑,盡管它們的推理能力顯然還有待提高。
在這場(chǎng)AI的“Mafia”大戰(zhàn)中,Claude 3.7 Sonnet模型無(wú)疑是最耀眼的明星。Anthropic的最新AI推理模型在扮演Mafia角色時(shí)勝率高達(dá)100%,即便作為村民,其勝率也遙遙領(lǐng)先其他對(duì)手,達(dá)到了45%。
Guzus透露,他計(jì)劃不久后開(kāi)放該游戲的Github代碼倉(cāng)庫(kù),希望這一邏輯能被應(yīng)用于更多類型的游戲中。目前,該模擬并未在本地AI模型上運(yùn)行,而是依賴于Openrouter API。但一旦代碼開(kāi)放,項(xiàng)目有望改進(jìn)為支持本地語(yǔ)言模型集群,前提是用戶的硬件能夠同時(shí)運(yùn)行多個(gè)AI。