據最新消息,谷歌正籌備在12月展示其對大型動作模型Rabbit的初步構想,該項目內部代號為Project Jarvis。Jarvis旨在通過智能技術幫助用戶完成日常網絡任務,如研究收集、產品購買及航班預訂。
據悉,Jarvis將搭載谷歌Gemini的未來版本,特別針對Chrome瀏覽器進行了優化,需與網絡瀏覽器配合使用。
Jarvis的工作原理是通過截取和解析屏幕截圖,自動執行點擊按鈕或輸入文本等操作,以簡化用戶的網絡任務流程。然而,目前該工具在執行操作間仍需幾秒鐘的等待時間。
其他科技巨頭也在積極探索類似技術。微軟已推出Copilot Vision,可讓用戶與網頁進行交互;Apple Intelligence則預計明年將實現屏幕內容識別與跨應用操作執行。
Anthropic也發布了Claude測試版更新,而OpenAI據傳也在開發類似功能。值得注意的是,谷歌12月展示Jarvis的計劃仍有可能變動,公司可能會先向少量測試人員開放該功能以進行漏洞排查。