PC-Agent:一款用于PC上自動(dòng)執(zhí)行復(fù)雜任務(wù)的多智能體框架
PC-Agent是什么?
PC-Agent 由阿里通義實(shí)驗(yàn)室和上海交通大學(xué)聯(lián)合推出的一種基于多模態(tài)大模型(MLLM)的新型層次化ai智能體框架。可以通過(guò)模擬人類(lèi)認(rèn)知過(guò)程,實(shí)現(xiàn)復(fù)雜 PC 任務(wù)的自動(dòng)化操作,它可以根據(jù)指令控制Chrome、Word、微信等,比現(xiàn)有方法的任務(wù)成功率提高了32%,解決傳統(tǒng)方法在復(fù)雜 PC 任務(wù)上的局限性。
PC-Agent核心特點(diǎn)
主動(dòng)感知模塊(APM):通過(guò)結(jié)合多模態(tài)大模型和屏幕截圖內(nèi)容,PC-Agent 能夠?qū)崿F(xiàn)對(duì)屏幕內(nèi)容的精細(xì)感知和操作。
層次化多智能體協(xié)作結(jié)構(gòu):PC-Agent 將復(fù)雜指令分解為指令、子任務(wù)和動(dòng)作三個(gè)層次,并分別設(shè)置了 Manager、Progress、Decision 和 Reflection 四個(gè)智能體。這種結(jié)構(gòu)能夠?qū)崿F(xiàn)自上而下的任務(wù)分解和自下而上的精確反饋。
動(dòng)態(tài)決策機(jī)制:通過(guò) Reflection Agent 對(duì)執(zhí)行結(jié)果進(jìn)行實(shí)時(shí)反饋和調(diào)整,確保任務(wù)的準(zhǔn)確性和適應(yīng)性。
PC-Agent應(yīng)用場(chǎng)景
任務(wù)自動(dòng)化:PC-Agent 可以自動(dòng)化執(zhí)行復(fù)雜的數(shù)字任務(wù),例如整理研究資料、撰寫(xiě)報(bào)告、制作演示文稿等。
跨應(yīng)用工作流:該框架能夠處理復(fù)雜的跨應(yīng)用任務(wù),例如在不同軟件之間進(jìn)行數(shù)據(jù)交互和操作。
高效數(shù)據(jù)利用:即使在少量高質(zhì)量數(shù)據(jù)的訓(xùn)練下,PC-Agent 也能處理多達(dá) 50 步的復(fù)雜工作流。
PC-Agent 優(yōu)勢(shì)
任務(wù)成功率高:復(fù)雜任務(wù)成功率比現(xiàn)有方法提升32%。
數(shù)據(jù)效率高:僅需少量數(shù)據(jù)即可學(xué)習(xí)復(fù)雜任務(wù)。
操作能力強(qiáng):能精準(zhǔn)感知屏幕內(nèi)容,完成復(fù)雜編輯和跨應(yīng)用操作。
適用場(chǎng)景廣:可自動(dòng)處理文檔、表格、演示文稿、日程管理等辦公任務(wù)。
用戶(hù)滿(mǎn)意度高:準(zhǔn)確率92%,響應(yīng)快,用戶(hù)評(píng)分4.5分(滿(mǎn)分5分)。
性能提升:在復(fù)雜任務(wù)的實(shí)驗(yàn)評(píng)估中,PC-Agent 的任務(wù)成功率比現(xiàn)有方法提升了 32%。
適應(yīng)性強(qiáng):通過(guò)模擬人類(lèi)認(rèn)知過(guò)程,PC-Agent 能夠更好地適應(yīng)復(fù)雜的交互環(huán)境。
GitHub倉(cāng)庫(kù):https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent