playwright-mcp:能夠使大語言模型直接操控瀏覽器完成復雜任務
laywright-MCP是什么?
laywright-MCP 是一個結合了 Playwright 的跨瀏覽器能力和模型上下文協議(MCP)的開源工具,它能夠使大語言模型(LLM)能夠直接操控瀏覽器完成復雜任務,核心是讓LLM通過結構化的可訪問性快照與網頁交互,而無需依賴屏幕截圖或視覺模型,可以用來自動填寫網頁表單、自動收集網頁信息、自動進行網頁測試等
laywright-MCP功能特點
瀏覽器自動化:支持打開網頁、點擊元素、填寫表單、截屏、執行 JavaScript 等操作。
結構化數據交互:基于 Playwright 的可訪問性樹生成結構化數據,無需視覺模型,適合基于文本的 LLM。
兩種模式:提供默認的“快照模式”(Snapshot Mode)和“視覺模式”(Vision Mode),后者可通過截圖實現視覺交互。
無頭模式支持:可以在后臺運行瀏覽器,不顯示界面。
快速輕量:基于 Playwright 的輕量級架構,響應速度快。
laywright-MCP使用場景
自動化測試:創建 ai 驅動的測試場景,模擬真實用戶行為。
數據提取:從復雜結構的網站中提取特定數據。
智能 Web 代理:構建能夠自動執行復雜任務的代理,如預訂旅行、比較價格等。
API 測試:支持發送 HTTP 請求并檢查響應內容。
網頁導航和表單填寫
從結構化內容中提取數據
代理的通用瀏覽器交互
laywright-MCP安裝與配置
1. 安裝:通過 npm 全局安裝 Playwright-MCP 服務器:
npm install -g @executeautomation/playwright-mcp-server
2. 配置:在 Claude Desktop 或其他支持 MCP 的客戶端中配置 Playwright-MCP:
{ "mcpServers": { "playwright": { "command": "npx", "args": ["-y", "@executeautomation/playwright-mcp-server"] } } }
laywright-MCP優勢
降低門檻:允許用戶通過自然語言指令控制瀏覽器操作,無需編寫復雜代碼。
高效性:基于結構化數據的交互方式比傳統基于視覺的方法更高效。
靈活性:支持實時生成指令,適應動態變化的頁面。
github項目:https://github.com/microsoft/playwright-mcp
相關文章
- 用戶登錄