Amazon Nova Act:亞馬遜推出的具備操控網(wǎng)頁瀏覽器并自主執(zhí)行簡單任務(wù)的的AI智能體
Nova Act是什么?
Nova Act是亞馬遜推出的一款具備操控網(wǎng)頁瀏覽器并自主執(zhí)行簡單任務(wù)的的ai智能體,能夠控制網(wǎng)頁瀏覽器并獨(dú)立完成諸如搜索、填寫表單、完成結(jié)賬等簡單任務(wù)。它還支持詳細(xì)指令識別和復(fù)雜任務(wù)分解,幫助用戶簡化日常操作。
Nova Act功能特征
瀏覽器操控能力:Nova Act可通過分解復(fù)雜任務(wù)為原子指令(如搜索、結(jié)賬、填寫表單),并調(diào)用瀏覽器API或Playwright工具實(shí)現(xiàn)自動(dòng)化操作,例如在線訂購沙拉、預(yù)訂餐廳或設(shè)置自動(dòng)回復(fù)郵件。其內(nèi)部測試顯示,在日期選擇、彈窗處理等UI交互任務(wù)中成功率超90%。
復(fù)雜任務(wù)分解:Nova Act SDK允許開發(fā)者將復(fù)雜任務(wù)分解為一系列可執(zhí)行的簡單命令,例如“找出從我家到這三家商店的最便捷路線,然后在大約下午6點(diǎn)看電影”。
詳細(xì)指令識別:它能夠識別更詳細(xì)的指令,比如在購物時(shí)拒絕接受保險(xiǎn)推銷。
多模態(tài)交互架構(gòu):依托自研的Nova基礎(chǔ)模型(如Nova Micro/Lite/Pro)解析網(wǎng)頁內(nèi)容,結(jié)合ScreenSpot Web Text 94%的高分能力模擬人類操作邏輯,實(shí)現(xiàn)視覺識別、行為模擬與流程控制的閉環(huán)。
性能表現(xiàn)
在亞馬遜內(nèi)部的ScreenSpot Web Text測試中,Nova Act得分為94%,優(yōu)于OpenAI的CUA(88%)和Anthropic的Claude 3.7 Sonnet(90%)。不過,亞馬遜并未使用更常見的代理評估基準(zhǔn)(如WebVoyager)對其進(jìn)行測試,其性能對比仍需更多外部驗(yàn)證。
Nova Act應(yīng)用場景
購物助手:Nova Act可以幫助用戶完成在線購物,例如從Sweetgreen訂購沙拉、進(jìn)行晚餐預(yù)訂等。
行程規(guī)劃:它可以協(xié)助用戶規(guī)劃行程,如找到從家到多個(gè)地點(diǎn)的最佳路線,并安排看電影等后續(xù)活動(dòng)。
表單填寫:Nova Act能夠自動(dòng)填寫各種在線表單。
日程安排:它還可以在日歷上選擇日期,幫助用戶安排日程。
信息查詢:Nova Act可以根據(jù)用戶指令,搜索并回答屏幕上顯示的內(nèi)容相關(guān)問題。
與Alexa+集成:Nova Act還將為亞馬遜即將推出的Alexa+升級提供支持,這是對亞馬遜流行的語音助手的生成式AI增強(qiáng)版本。
Nova Act由亞馬遜新成立的舊金山AGI(人工通用智能)實(shí)驗(yàn)室開發(fā),Amazon Nova Act是該實(shí)驗(yàn)室的首款公開產(chǎn)品。
詳細(xì)介紹:https://labs.amazon.science/blog/nova-act
官網(wǎng):https://nova.amazon.com/