Mobile-Agent-v2: 強大的移動設備操作助手
阿里和北交大的Mobile-Agent-v2 發布了Mobile-Agent-v2,一款通過多智能體協作實現有效導航的移動設備操作助手,它通過多代理協作實現了對移動設備的自動化操作和視覺感知功能,讓ai可以像真人一樣模擬點擊、滑動、輸入等操作來操控你的手機,從而執行各種任務。
Mobile-Agent-v2背景
傳統上,移動設備操作任務在多任務處理方面存在不足,這主要是由于當前多模式 LLMs (MLLM) 中導航和焦點管理的限制。這種限制的后果包括長序列和混合數據格式的性能下降,使得任務進度和焦點內容的有效導航特別具有挑戰性。基于 MLLM 的代理的出現,通過工具調用來增強 MLLM 的擴展功能,帶來了新穎的解決方案,但它們無法解決移動設備操作中固有的導航問題。
而Mobile-Agent-v基于多Agent架構的純視覺解決方案,具有更強的任務分解、跨應用操作、多語言能力。
Mobile-Agent-v2架構和方法論
Mobile-Agent-v2 引入了由三個專門代理組成的多代理系統:規劃代理、決策代理和反射代理。每個代理都扮演著不同的角色,共同增強導航和決策過程:
規劃代理:該代理通過將這些歷史總結并壓縮為可管理的純文本任務進度來解決冗長操作歷史的復雜性。該任務進度移交給決策代理,通過減少上下文長度來促進更輕松的導航和決策。
決策代理:決策代理在視覺感知模塊內運行,處理濃縮的任務進度并做出明智的操作決策。它負責用相關的焦點內容更新內存單元,以便將來的步驟參考。此功能確保代理可以根據過去的屏幕保持準確的焦點上下文。
反射代理:為了管理和糾正潛在的錯誤操作,反射代理會相對于預期結果評估每個操作的結果。通過分析操作前后的屏幕變化,對錯誤和無效操作進行識別、分類和響應,從而增強任務執行的可靠性。
Mobile-Agent-v2場景應用
搜索和購買商品:在購物應用中自動搜索商品、添加到購物車并完成購買。
郵件發送:在 Gmail 中自動填寫和發送郵件。
導航:在 Google Maps 中自動進行導航操作。
視頻觀看:在 YouTube 中搜索并評論特定視頻。
相比Mobile-Agent:依賴單一代理執行任務。Mobile-Agent-v2:引入了多代理協作架構,通過多個代理協同工作,實現更高效的導航和任務執行。
實驗結果表明,相對于之前的移動代理架構有了實質性的改進。 Mobile-Agent-v2 的任務完成率提高了 30% 以上,凸顯了多代理協作的功效。涉及多步驟和交錯模式的任務可以從新架構中受益匪淺,因為它可以有效地導航和管理移動設備操作的復雜性。
Mobile-Agent-v2論文:https://arxiv.org/abs/2406.01014
Mobile-Agent-v2代碼:https://github.com/X-PLUG/MobileAgent
Modelscope-agent:https://github.com/modelscope/modelscope-agent
相關文章
- 用戶登錄