CUA Browser: 基于Browserbase和OpenAI CUA Model的瀏覽器自動化開源項目
CUA Browser是什么?
CUA Browser 是一個提供一個測試和探索 Browserbase 和 Openai 的 Computer-Using Agent (CUA) 功能的免費開源項目。用戶可以通過自然語言命令與瀏覽器交互,并觀察瀏覽器的響應。
CUA Browser功能特征
多模態交互:CUA通過處理屏幕上的原始像素數據來理解界面內容,借助虛擬鼠標和鍵盤完成操作。
多步驟任務執行:可將復雜任務分解成多個步驟,并能動態調整操作順序。
推理與自糾正能力:執行任務時,CUA會通過鏈式思考進行推理,再依據環境反饋動態調整操作。
用戶確認機制:對于敏感操作,像輸入登錄信息或處理驗證碼這類,CUA會請求用戶確認,防止出現潛在錯誤。
無需專用API:CUA不依賴特定的操作系統或網頁API,能直接通過屏幕、鼠標和鍵盤與各種數字環境交互。
CUA Browser項目特點
開源免費:CUA Browser是開源項目,采用MIT許可證,用戶可免費使用。
技術基礎:該項目基于Browserbase和OpenAI的CUA技術開發。CUA是一種能通過圖形用戶界面(GUI)與計算機應用交互的人工智能模型。
使用場景:用戶輸入自然語言指令后,CUA Browser就能執行網頁瀏覽、表單填寫、信息提取等任務。
CUA Browser應用場景
網頁自動化任務:能自動填寫表單、搜索信息、篩選內容等。比如搜索特定商品、預訂酒店、查詢航班信息等。
復雜任務執行:可以處理多步驟任務,像創建項目、生成購物清單、管理日程等。例如在Todoist中創建購物清單或在Spotify中創建歌單。
信息檢索與整理:從多個網站提取和整理信息,比如搜索不同網站上的產品信息并比較。
輔助決策:在復雜任務中提供輔助決策支持,例如計算退款金額或解決邏輯推理問題。
安全與合規:執行敏感操作時,CUA會要求用戶確認,確保操作安全。
CUA Browser使用方法
1. 環境準備
Node.js:需要安裝 Node.js(推薦版本 14.x 或更高)。
API 密鑰:需要從 OpenAI 和 Browserbase 獲取相應的 API 密鑰。
2. 項目克隆與配置:
git clone https://github.com/browserbase/cua-browser.git cd cua-browser cp .env.example .env.local
3. 安裝依賴:
npm install
4. 配置環境變量:
OPENAI_API_KEY=your_openai_api_key OPENAI_ORG=your_openai_org_id (optional) BROWSERBASE_API_KEY=your_browserbase_api_key BROWSERBASE_PROJECT_ID=your_browserbase_project_id
5. 啟動開發服務器:
npm run dev
與OpenAI的Operator關系
CUA Browser的靈感源于OpenAI的Operator項目,后者是一個能通過瀏覽器執行任務的AI智能體。Operator使用CUA模型,結合了GPT - 4o的視覺能力和強化學習的推理能力,能通過屏幕截圖“看到”網頁內容,并通過模擬鼠標和鍵盤操作與網頁交互 。
GitHub倉庫:https://github.com/browserbase/cua-browser
項目官網:https://www.browserbase.com/computer-use