OpenAI Operator:模擬人類操作自動完成各種在線任務(wù),如預(yù)訂餐廳、購買機(jī)票。
Openai Operator是什么?
OpenAI Operator 是 OpenAI 推出的一款AI智能體,通過模擬人類操作電腦的能力來自主完成各種在線任務(wù),可以通過查看網(wǎng)頁、輸入文字、點擊按鈕和滾動頁面等方式與網(wǎng)頁交互,比如預(yù)訂餐廳、購買機(jī)票、填寫表單等。
OpenAI Operator核心功能
自動化任務(wù)執(zhí)行:Operator 可以自動完成多種在線任務(wù),例如預(yù)訂餐廳、購買機(jī)票、在線購物、填寫表單等。
多任務(wù)處理:支持同時運行多個任務(wù),例如在不同網(wǎng)站上預(yù)訂旅行和購物。
個性化設(shè)置:用戶可以設(shè)置偏好(如首選航空公司)并保存常用任務(wù),以便快速執(zhí)行。
自我糾錯與推理能力:在遇到問題時,Operator 能通過推理自我調(diào)整,若無法解決則交還用戶控制。
安全與隱私保護(hù):在涉及敏感信息(如登錄、支付)時,Operator 會請求用戶接管,拒絕執(zhí)行高風(fēng)險任務(wù)。
OpenAI Operator工作原理
Operator基于OpenAI最新的CUA模型(在GPT-4o基礎(chǔ)上開發(fā)),該模型結(jié)合了 GPT-4o 的視覺能力和強化學(xué)習(xí)的高級推理能力。特別針對視覺用戶界面的理解與交互進(jìn)行了專項訓(xùn)練。這種能力使得它無需API支持即可高效完成復(fù)雜任務(wù)。Operator通過截取網(wǎng)頁截圖來“看”網(wǎng)頁內(nèi)容,利用鼠標(biāo)和鍵盤操作模擬“交互”,無需定制API集成就能在網(wǎng)頁上自由行動。
另外,Operator 還可以利用其推理能力自我糾正。如果需要幫助,它會將控制權(quán)交還給用戶,確保流暢且協(xié)作的體驗。
OpenAI Operator應(yīng)用場景
旅游預(yù)訂:在 TripAdvisor 上查找并預(yù)訂評價最高的羅馬一日游。
購物:訂購雜貨(Instacart)、訂購個性化商品(Etsy)。
預(yù)訂服務(wù):預(yù)訂營地(Hipcamp)、預(yù)訂餐館(OpenTable)。
公共服務(wù):與 Stockton 市合作,簡化城市服務(wù)的注冊流程。
安全與隱私
用戶控制:在關(guān)鍵步驟(如登錄、支付等)主動請求用戶接管。
數(shù)據(jù)管理:用戶可以管理數(shù)據(jù)隱私,阻止數(shù)據(jù)用于模型訓(xùn)練或刪除瀏覽數(shù)據(jù)。
反欺詐機(jī)制:具備防御惡意網(wǎng)站的能力,檢測并忽略隱藏提示和惡意代碼。
OpenAI Operator使用方法
用戶只需描述需要完成的任務(wù),Operator 就會處理剩下的工作。用戶可以在任何時刻接管遠(yuǎn)程瀏覽器的控制權(quán),尤其是在需要輸入敏感信息(如登錄憑證、支付信息)或解決驗證碼時。用戶還可以通過添加自定義指令來個性化工作流程,例如在 Booking.com 上設(shè)置航空公司的偏好,或保存常用任務(wù)的提示以快速訪問。
此外,Operator 支持多任務(wù)處理,用戶可以同時運行多個任務(wù),例如在 Etsy 上訂購個性化杯子,同時在 Hipcamp 上預(yù)訂露營地。
目前,OpenAI Operator處于研究預(yù)覽階段,僅對美國、澳大利亞、巴西、加拿大、印度、日本、新加坡、韓國、英國等國家的 ChatGPT Pro 用戶開放。用戶需要訂閱 OpenAI 的 $200 美元/月的 Pro 層訂閱才能使用。
詳細(xì):https://openai.com/index/introducing-operator/