新加坡國(guó)立大學(xué)的研究團(tuán)隊(duì)近期公布了一項(xiàng)令人矚目的研究成果,他們針對(duì)Claude這一人工智能(AI)系統(tǒng)進(jìn)行了廣泛的能力測(cè)試,測(cè)試覆蓋了超過20個(gè)不同的應(yīng)用場(chǎng)景。
在測(cè)試中,Claude展現(xiàn)出了驚人的電腦操控能力,不僅能夠輕松完成手機(jī)上的日常任務(wù),還能夠在復(fù)雜的辦公環(huán)境中游刃有余。研究團(tuán)隊(duì)特別選擇了熱門手游《崩壞:星穹鐵道》作為測(cè)試對(duì)象之一,通過簡(jiǎn)單的指令,如“幫我完成今天的模擬宇宙”,Claude便能自動(dòng)執(zhí)行游戲中的各項(xiàng)任務(wù),包括啟動(dòng)戰(zhàn)斗、等待結(jié)束并退出,整個(gè)過程流暢自如。
值得注意的是,Claude的操控并非簡(jiǎn)單的機(jī)械重復(fù),而是基于對(duì)游戲規(guī)則和目標(biāo)的深刻理解。它能夠根據(jù)游戲界面的不同任務(wù)進(jìn)行智能調(diào)整,展現(xiàn)出極高的靈活性和適應(yīng)性。
除了在游戲領(lǐng)域的出色表現(xiàn),Claude在辦公場(chǎng)景中同樣大放異彩。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于Claude Computer Use API的自動(dòng)化GUI框架,該框架涵蓋了系統(tǒng)提示、狀態(tài)觀察、推理范式等多個(gè)模塊。通過這個(gè)框架,Claude能夠執(zhí)行包括網(wǎng)頁搜索、工作流程管理以及辦公生產(chǎn)力軟件操作等在內(nèi)的多項(xiàng)日常辦公任務(wù)。
例如,在Amazon和Apple的官方網(wǎng)站上,Claude能夠成功完成下單購(gòu)物的全過程,包括選擇商品顏色、配置以及填寫收貨地址等步驟,無需人工干預(yù)。
盡管在復(fù)雜網(wǎng)頁操作和辦公軟件使用中,Claude也遇到了部分挑戰(zhàn),但整體而言,其表現(xiàn)已經(jīng)相當(dāng)出色。研究團(tuán)隊(duì)還慷慨地公開了所有測(cè)試用例的具體信息,供其他研究者和開發(fā)者參考和進(jìn)一步探索。這一舉措無疑將推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。