playwright-mcp:能夠使大語言模型直接操控瀏覽器完成復(fù)雜任務(wù)
laywright-MCP是什么?
laywright-MCP 是一個結(jié)合了 Playwright 的跨瀏覽器能力和模型上下文協(xié)議(MCP)的開源工具,它能夠使大語言模型(LLM)能夠直接操控瀏覽器完成復(fù)雜任務(wù),核心是讓LLM通過結(jié)構(gòu)化的可訪問性快照與網(wǎng)頁交互,而無需依賴屏幕截圖或視覺模型,可以用來自動填寫網(wǎng)頁表單、自動收集網(wǎng)頁信息、自動進行網(wǎng)頁測試等
laywright-MCP功能特點
瀏覽器自動化:支持打開網(wǎng)頁、點擊元素、填寫表單、截屏、執(zhí)行 JavaScript 等操作。
結(jié)構(gòu)化數(shù)據(jù)交互:基于 Playwright 的可訪問性樹生成結(jié)構(gòu)化數(shù)據(jù),無需視覺模型,適合基于文本的 LLM。
兩種模式:提供默認的“快照模式”(Snapshot Mode)和“視覺模式”(Vision Mode),后者可通過截圖實現(xiàn)視覺交互。
無頭模式支持:可以在后臺運行瀏覽器,不顯示界面。
快速輕量:基于 Playwright 的輕量級架構(gòu),響應(yīng)速度快。
laywright-MCP使用場景
自動化測試:創(chuàng)建 ai 驅(qū)動的測試場景,模擬真實用戶行為。
數(shù)據(jù)提取:從復(fù)雜結(jié)構(gòu)的網(wǎng)站中提取特定數(shù)據(jù)。
智能 Web 代理:構(gòu)建能夠自動執(zhí)行復(fù)雜任務(wù)的代理,如預(yù)訂旅行、比較價格等。
API 測試:支持發(fā)送 HTTP 請求并檢查響應(yīng)內(nèi)容。
網(wǎng)頁導(dǎo)航和表單填寫
從結(jié)構(gòu)化內(nèi)容中提取數(shù)據(jù)
代理的通用瀏覽器交互
laywright-MCP安裝與配置
1. 安裝:通過 npm 全局安裝 Playwright-MCP 服務(wù)器:
npm install -g @executeautomation/playwright-mcp-server
2. 配置:在 Claude Desktop 或其他支持 MCP 的客戶端中配置 Playwright-MCP:
{ "mcpServers": { "playwright": { "command": "npx", "args": ["-y", "@executeautomation/playwright-mcp-server"] } } }
laywright-MCP優(yōu)勢
降低門檻:允許用戶通過自然語言指令控制瀏覽器操作,無需編寫復(fù)雜代碼。
高效性:基于結(jié)構(gòu)化數(shù)據(jù)的交互方式比傳統(tǒng)基于視覺的方法更高效。
靈活性:支持實時生成指令,適應(yīng)動態(tài)變化的頁面。
github項目:https://github.com/microsoft/playwright-mcp