亚洲综合在线小说,91嫩草香蕉,国产一卡二卡3卡4卡四卡在线

AI語(yǔ)言模型上演“狼人殺”，誰(shuí)才是推理之王？

發(fā)布時(shí)間：2025-03-08 18:49 來(lái)源：ITBEAR 作者：馮璃月

近日，國(guó)外知名科技媒體Tom's Hardware報(bào)道了一項(xiàng)別開(kāi)生面的AI實(shí)驗(yàn)。開(kāi)發(fā)者Guzus創(chuàng)新性地搭建了一個(gè)平臺(tái)，讓多個(gè)AI語(yǔ)言模型在同一空間內(nèi)展開(kāi)經(jīng)典的社交推理游戲“Mafia”，也就是人們熟知的“天黑請(qǐng)閉眼”或“狼人殺”的前身。

在這個(gè)平臺(tái)上，不僅每局游戲的勝負(fù)一目了然，連對(duì)話記錄也詳盡無(wú)遺。更有趣的是，Guzus還設(shè)計(jì)了一個(gè)排名系統(tǒng)，根據(jù)AI們?cè)谟螒蛑械谋憩F(xiàn)，評(píng)選出最擅長(zhǎng)扮演各種角色的模型。

“Mafia”的游戲規(guī)則簡(jiǎn)單明了：一群村民中隱藏著兩名Mafia成員和一名醫(yī)生。白天，村民們需要通過(guò)推理和投票找出Mafia；夜晚，醫(yī)生可以保護(hù)一名村民，而Mafia則暗殺一人。若Mafia被全部找出，村民獲勝；反之，若所有無(wú)辜村民被殺，Mafia則取得勝利。

當(dāng)這些AI模型被置于這樣的游戲規(guī)則之下，一場(chǎng)場(chǎng)充滿戲劇性的社交博弈隨即上演。在一場(chǎng)游戲中，AI們開(kāi)始自我介紹并討論是否公開(kāi)身份，然而Gryphe / Mythomax-l2-13b模型卻突然“自爆”，直接承認(rèn)自己是Mafia的一員，并透露了自己的目標(biāo)。

這一舉動(dòng)立即引起了其他AI的警覺(jué)，Claude-3.7-sonnet模型迅速指出，這要么是真實(shí)身份的暴露，要么就是一種前所未有的奇怪策略。

然而，劇情并未就此結(jié)束。當(dāng)Mythomax被淘汰后，它居然“拖下水”了自己的隊(duì)友Hermes-3-llama-3-1-405b，直接指認(rèn)對(duì)方是自己的同伙。Mythomax試圖用夸張的“團(tuán)結(jié)宣言”來(lái)轉(zhuǎn)移注意力，但這場(chǎng)AI間的社交混戰(zhàn)已經(jīng)讓人捧腹大笑，盡管它們的推理能力顯然還有待提高。

在這場(chǎng)AI的“Mafia”大戰(zhàn)中，Claude 3.7 Sonnet模型無(wú)疑是最耀眼的明星。Anthropic的最新AI推理模型在扮演Mafia角色時(shí)勝率高達(dá)100%，即便作為村民，其勝率也遙遙領(lǐng)先其他對(duì)手，達(dá)到了45%。

Guzus透露，他計(jì)劃不久后開(kāi)放該游戲的Github代碼倉(cāng)庫(kù)，希望這一邏輯能被應(yīng)用于更多類型的游戲中。目前，該模擬并未在本地AI模型上運(yùn)行，而是依賴于Openrouter API。但一旦代碼開(kāi)放，項(xiàng)目有望改進(jìn)為支持本地語(yǔ)言模型集群，前提是用戶的硬件能夠同時(shí)運(yùn)行多個(gè)AI。

更多>同類內(nèi)容