Mobile-Agent-v2: 強(qiáng)大的移動(dòng)設(shè)備操作助手
阿里和北交大的Mobile-Agent-v2 發(fā)布了Mobile-Agent-v2,一款通過多智能體協(xié)作實(shí)現(xiàn)有效導(dǎo)航的移動(dòng)設(shè)備操作助手,它通過多代理協(xié)作實(shí)現(xiàn)了對(duì)移動(dòng)設(shè)備的自動(dòng)化操作和視覺感知功能,讓ai可以像真人一樣模擬點(diǎn)擊、滑動(dòng)、輸入等操作來操控你的手機(jī),從而執(zhí)行各種任務(wù)。

Mobile-Agent-v2背景
傳統(tǒng)上,移動(dòng)設(shè)備操作任務(wù)在多任務(wù)處理方面存在不足,這主要是由于當(dāng)前多模式 LLMs (MLLM) 中導(dǎo)航和焦點(diǎn)管理的限制。這種限制的后果包括長(zhǎng)序列和混合數(shù)據(jù)格式的性能下降,使得任務(wù)進(jìn)度和焦點(diǎn)內(nèi)容的有效導(dǎo)航特別具有挑戰(zhàn)性。基于 MLLM 的代理的出現(xiàn),通過工具調(diào)用來增強(qiáng) MLLM 的擴(kuò)展功能,帶來了新穎的解決方案,但它們無法解決移動(dòng)設(shè)備操作中固有的導(dǎo)航問題。
而Mobile-Agent-v基于多Agent架構(gòu)的純視覺解決方案,具有更強(qiáng)的任務(wù)分解、跨應(yīng)用操作、多語言能力。
Mobile-Agent-v2架構(gòu)和方法論
Mobile-Agent-v2 引入了由三個(gè)專門代理組成的多代理系統(tǒng):規(guī)劃代理、決策代理和反射代理。每個(gè)代理都扮演著不同的角色,共同增強(qiáng)導(dǎo)航和決策過程:
規(guī)劃代理:該代理通過將這些歷史總結(jié)并壓縮為可管理的純文本任務(wù)進(jìn)度來解決冗長(zhǎng)操作歷史的復(fù)雜性。該任務(wù)進(jìn)度移交給決策代理,通過減少上下文長(zhǎng)度來促進(jìn)更輕松的導(dǎo)航和決策。
決策代理:決策代理在視覺感知模塊內(nèi)運(yùn)行,處理濃縮的任務(wù)進(jìn)度并做出明智的操作決策。它負(fù)責(zé)用相關(guān)的焦點(diǎn)內(nèi)容更新內(nèi)存單元,以便將來的步驟參考。此功能確保代理可以根據(jù)過去的屏幕保持準(zhǔn)確的焦點(diǎn)上下文。
反射代理:為了管理和糾正潛在的錯(cuò)誤操作,反射代理會(huì)相對(duì)于預(yù)期結(jié)果評(píng)估每個(gè)操作的結(jié)果。通過分析操作前后的屏幕變化,對(duì)錯(cuò)誤和無效操作進(jìn)行識(shí)別、分類和響應(yīng),從而增強(qiáng)任務(wù)執(zhí)行的可靠性。

Mobile-Agent-v2場(chǎng)景應(yīng)用
搜索和購買商品:在購物應(yīng)用中自動(dòng)搜索商品、添加到購物車并完成購買。
郵件發(fā)送:在 Gmail 中自動(dòng)填寫和發(fā)送郵件。
導(dǎo)航:在 Google Maps 中自動(dòng)進(jìn)行導(dǎo)航操作。
視頻觀看:在 YouTube 中搜索并評(píng)論特定視頻。
相比Mobile-Agent:依賴單一代理執(zhí)行任務(wù)。Mobile-Agent-v2:引入了多代理協(xié)作架構(gòu),通過多個(gè)代理協(xié)同工作,實(shí)現(xiàn)更高效的導(dǎo)航和任務(wù)執(zhí)行。
實(shí)驗(yàn)結(jié)果表明,相對(duì)于之前的移動(dòng)代理架構(gòu)有了實(shí)質(zhì)性的改進(jìn)。 Mobile-Agent-v2 的任務(wù)完成率提高了 30% 以上,凸顯了多代理協(xié)作的功效。涉及多步驟和交錯(cuò)模式的任務(wù)可以從新架構(gòu)中受益匪淺,因?yàn)樗梢杂行У貙?dǎo)航和管理移動(dòng)設(shè)備操作的復(fù)雜性。
Mobile-Agent-v2論文:https://arxiv.org/abs/2406.01014
Mobile-Agent-v2代碼:https://github.com/X-PLUG/MobileAgent
Modelscope-agent:https://github.com/modelscope/modelscope-agent
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)










