PC-Agent:一款用于PC上自動執行復雜任務的多智能體框架
PC-Agent是什么?
PC-Agent 由阿里通義實驗室和上海交通大學聯合推出的一種基于多模態大模型(MLLM)的新型層次化ai智能體框架。可以通過模擬人類認知過程,實現復雜 PC 任務的自動化操作,它可以根據指令控制Chrome、Word、微信等,比現有方法的任務成功率提高了32%,解決傳統方法在復雜 PC 任務上的局限性。
PC-Agent核心特點
主動感知模塊(APM):通過結合多模態大模型和屏幕截圖內容,PC-Agent 能夠實現對屏幕內容的精細感知和操作。
層次化多智能體協作結構:PC-Agent 將復雜指令分解為指令、子任務和動作三個層次,并分別設置了 Manager、Progress、Decision 和 Reflection 四個智能體。這種結構能夠實現自上而下的任務分解和自下而上的精確反饋。
動態決策機制:通過 Reflection Agent 對執行結果進行實時反饋和調整,確保任務的準確性和適應性。
PC-Agent應用場景
任務自動化:PC-Agent 可以自動化執行復雜的數字任務,例如整理研究資料、撰寫報告、制作演示文稿等。
跨應用工作流:該框架能夠處理復雜的跨應用任務,例如在不同軟件之間進行數據交互和操作。
高效數據利用:即使在少量高質量數據的訓練下,PC-Agent 也能處理多達 50 步的復雜工作流。
PC-Agent 優勢
任務成功率高:復雜任務成功率比現有方法提升32%。
數據效率高:僅需少量數據即可學習復雜任務。
操作能力強:能精準感知屏幕內容,完成復雜編輯和跨應用操作。
適用場景廣:可自動處理文檔、表格、演示文稿、日程管理等辦公任務。
用戶滿意度高:準確率92%,響應快,用戶評分4.5分(滿分5分)。
性能提升:在復雜任務的實驗評估中,PC-Agent 的任務成功率比現有方法提升了 32%。
適應性強:通過模擬人類認知過程,PC-Agent 能夠更好地適應復雜的交互環境。
GitHub倉庫:https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent