清華大學智能產業研究院(AIR)近期公布了一項突破性的研究,該研究聚焦于移動設備上的自然語言控制自動化。AIR在2024年末發布了一篇論文,詳細介紹了一款名為AutoDroid-V2的AI模型。這款模型利用小型語言模型(SLM)顯著提升了移動設備上的自動化控制能力。
傳統的移動設備自動化控制主要依賴于大型語言模型(LLM)和視覺語言模型(VLM),這些模型通過自然語言命令實現復雜的用戶任務。然而,這些傳統方法大多采用“逐步GUI智能體”方式,頻繁查詢GUI狀態,依賴云端模型進行決策,這不僅帶來了隱私和安全問題,還增加了用戶端流量消耗和服務器端成本。
相比之下,AutoDroid-V2采用了全新的方法。它根據用戶指令生成多步驟腳本,通過設備上的小型語言模型一次性執行多個GUI操作,從而顯著減少了查詢頻率和資源消耗。這種方法不僅避免了對云端大型模型的依賴,還有效保護了用戶隱私和數據安全,降低了服務器端的成本。
在基準測試中,AutoDroid-V2表現出色。研究團隊在23個移動應用上測試了226項任務,與AutoDroid、SeeClick、CogAgent和Mind2Web等基線方法相比,AutoDroid-V2的任務完成率提高了10.5%至51.7%。這一顯著的提升表明,AutoDroid-V2在移動設備自動化控制領域具有巨大的潛力。
AutoDroid-V2在資源消耗方面也表現出色。與基線方法相比,AutoDroid-V2的輸入和輸出token消耗分別減少至原來的四十三分之一和五十八分之一,LLM推理延遲降低至原來的五分之一到十三分之四。這些改進使得AutoDroid-V2在實際應用中更加高效節能。
在跨LLM測試中,AutoDroid-V2也表現出良好的一致性和穩定性。研究團隊在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B等不同規模的模型上進行了測試,結果顯示AutoDroid-V2的成功率在44.6%至54.4%之間,反向冗余比在90.5%至93.0%之間。這一結果表明,AutoDroid-V2對不同規模的LLM具有良好的適應性和魯棒性。