我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Mobile-Agent-v2: 強(qiáng)大的移動(dòng)設(shè)備操作助手

阿里和北交大的Mobile-Agent-v2 發(fā)布了Mobile-Agent-v2,一款通過多智能體協(xié)作實(shí)現(xiàn)有效導(dǎo)航的移動(dòng)設(shè)備操作助手,它通過多代理協(xié)作實(shí)現(xiàn)了對(duì)移動(dòng)設(shè)備的自動(dòng)化操作和視覺感知功能,讓ai可以像真人一樣模擬點(diǎn)擊、滑動(dòng)、輸入等操作來操控你的手機(jī),從而執(zhí)行各種任務(wù)。

MobileAgent_-Mobile-Agent_-The-Powerful-Mobile-Devic_---github.jpg

Mobile-Agent-v2背景 

傳統(tǒng)上,移動(dòng)設(shè)備操作任務(wù)在多任務(wù)處理方面存在不足,這主要是由于當(dāng)前多模式 LLMs (MLLM) 中導(dǎo)航和焦點(diǎn)管理的限制。這種限制的后果包括長(zhǎng)序列和混合數(shù)據(jù)格式的性能下降,使得任務(wù)進(jìn)度和焦點(diǎn)內(nèi)容的有效導(dǎo)航特別具有挑戰(zhàn)性。基于 MLLM 的代理的出現(xiàn),通過工具調(diào)用來增強(qiáng) MLLM 的擴(kuò)展功能,帶來了新穎的解決方案,但它們無法解決移動(dòng)設(shè)備操作中固有的導(dǎo)航問題。

而Mobile-Agent-v基于多Agent架構(gòu)的純視覺解決方案,具有更強(qiáng)的任務(wù)分解、跨應(yīng)用操作、多語言能力。

Mobile-Agent-v2架構(gòu)和方法論

Mobile-Agent-v2 引入了由三個(gè)專門代理組成的多代理系統(tǒng):規(guī)劃代理、決策代理和反射代理。每個(gè)代理都扮演著不同的角色,共同增強(qiáng)導(dǎo)航和決策過程:

規(guī)劃代理:該代理通過將這些歷史總結(jié)并壓縮為可管理的純文本任務(wù)進(jìn)度來解決冗長(zhǎng)操作歷史的復(fù)雜性。該任務(wù)進(jìn)度移交給決策代理,通過減少上下文長(zhǎng)度來促進(jìn)更輕松的導(dǎo)航和決策。

決策代理:決策代理在視覺感知模塊內(nèi)運(yùn)行,處理濃縮的任務(wù)進(jìn)度并做出明智的操作決策。它負(fù)責(zé)用相關(guān)的焦點(diǎn)內(nèi)容更新內(nèi)存單元,以便將來的步驟參考。此功能確保代理可以根據(jù)過去的屏幕保持準(zhǔn)確的焦點(diǎn)上下文。

反射代理:為了管理和糾正潛在的錯(cuò)誤操作,反射代理會(huì)相對(duì)于預(yù)期結(jié)果評(píng)估每個(gè)操作的結(jié)果。通過分析操作前后的屏幕變化,對(duì)錯(cuò)誤和無效操作進(jìn)行識(shí)別、分類和響應(yīng),從而增強(qiáng)任務(wù)執(zhí)行的可靠性。

Mobile-Agent-v2.jpg

Mobile-Agent-v2場(chǎng)景應(yīng)用

搜索和購買商品:在購物應(yīng)用中自動(dòng)搜索商品、添加到購物車并完成購買。

郵件發(fā)送:在 Gmail 中自動(dòng)填寫和發(fā)送郵件。

導(dǎo)航:在 Google Maps 中自動(dòng)進(jìn)行導(dǎo)航操作。

視頻觀看:在 YouTube 中搜索并評(píng)論特定視頻。

相比Mobile-Agent:依賴單一代理執(zhí)行任務(wù)。Mobile-Agent-v2:引入了多代理協(xié)作架構(gòu),通過多個(gè)代理協(xié)同工作,實(shí)現(xiàn)更高效的導(dǎo)航和任務(wù)執(zhí)行。

實(shí)驗(yàn)結(jié)果表明,相對(duì)于之前的移動(dòng)代理架構(gòu)有了實(shí)質(zhì)性的改進(jìn)。 Mobile-Agent-v2 的任務(wù)完成率提高了 30% 以上,凸顯了多代理協(xié)作的功效。涉及多步驟和交錯(cuò)模式的任務(wù)可以從新架構(gòu)中受益匪淺,因?yàn)樗梢杂行У貙?dǎo)航和管理移動(dòng)設(shè)備操作的復(fù)雜性。

Mobile-Agent-v2論文:https://arxiv.org/abs/2406.01014

Mobile-Agent-v2代碼:https://github.com/X-PLUG/MobileAgent

Modelscope-agent:https://github.com/modelscope/modelscope-agent

收藏

相關(guān)文章

最新工具
Thea AI
Thea AI

一個(gè)專門為學(xué)生設(shè)計(jì)的AI學(xué)習(xí)平臺(tái)。它能自動(dòng)把課堂筆記、PDF文件...

Pose Search
Pose Search

一個(gè)開源的人體姿勢(shì)搜索工具,允許用戶根據(jù)性別、關(guān)節(jié)或身體部位來篩...

Linnk AI
Linnk AI

面向研究人員和專業(yè)人士的工具,能在網(wǎng)頁、PDF 及多種文檔里快速...

Mentimeter
Mentimeter

一個(gè)讓傳統(tǒng)演示變得更有趣、更互動(dòng)的工具。它特別適合用在教育、企業(yè)...

落筆AI寫作
落筆AI寫作

一個(gè)專為故事創(chuàng)作者設(shè)計(jì)的Ai小說寫作輔助工具,最大特點(diǎn)是把“找靈...

靈光APP
靈光APP

螞蟻集團(tuán)推出的全模態(tài)AI助手,它能理解和生成語言、圖像、語音與數(shù)...

Moakt Email
Moakt Email

一個(gè)能提供臨時(shí)郵箱服務(wù)的平臺(tái),不用注冊(cè)就能快速弄出一個(gè)一次性的郵...

JOJO看報(bào)
JOJO看報(bào)

一個(gè)能在線看老報(bào)紙和雜志的網(wǎng)站,有《人民日?qǐng)?bào)》《參考消息》《紅旗...

超級(jí)表格
超級(jí)表格

一款多人共享的在線表格工具,結(jié)合表格與表單功能,支持多人同時(shí)查看...

蘿卜簡(jiǎn)歷
蘿卜簡(jiǎn)歷

一個(gè)免費(fèi)在線簡(jiǎn)歷制作工具,用AI幫應(yīng)屆生和求職者寫更貼合崗位的簡(jiǎn)...

主站蜘蛛池模板: 建宁县| 手游| 类乌齐县| 三穗县| 新建县| 保康县| 赣榆县| 武陟县| 赣榆县| 甘德县| 顺义区| 陆丰市| 肥乡县| 泉州市| 星子县| 香格里拉县| 温州市| 林州市| 汉源县| 石渠县| 勐海县| 香格里拉县| 呼玛县| 凤台县| 遵化市| 合阳县| 青冈县| 荆门市| 雷山县| 日照市| 昆山市| 清水河县| 武安市| 兴山县| 瓮安县| 务川| 城口县| 山阳县| 遂平县| 小金县| 西华县|