Sitemcp:將網(wǎng)站變成MCP服務(wù)器的一個(gè)開源項(xiàng)目
siteMCP是什么?
sitemcp能夠抓取網(wǎng)站內(nèi)容并緩存,支持使用micromatch指定抓取的頁面路徑以及 CSS 選擇器來精細(xì)化選擇頁面內(nèi)容,并把抓取的內(nèi)容用作MCP服務(wù)器的數(shù)據(jù)源,也就是說它把靜態(tài)網(wǎng)站變成了一個(gè)可交互的知識(shí)庫,配合MCP客戶端進(jìn)行提問,獲取更精準(zhǔn)的信息。
sitemcp功能
內(nèi)容抓取與緩存:可以抓取指定網(wǎng)站的全部或部分頁面,并將其緩存起來。支持使用 micromatch 來指定抓取的頁面路徑,例如:
sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"
內(nèi)容選擇器:在某些頁面中,mozilla/readability 提取的內(nèi)容可能不夠準(zhǔn)確,此時(shí)可以通過指定 CSS 選擇器來精確提取可讀內(nèi)容:
sitemcp https://vite.dev --content-selector ".content"
與 MCP 客戶端配合使用:sitemcp 可以與 MCP 客戶端(如 Claude Desktop)配合使用。通過配置文件,可以在客戶端中啟動(dòng) sitemcp 服務(wù)器。例如:
{ "mcpServers": { "daisy-ui": { "command": "npx", "args": [ "-y", "sitemcp", "https://daisyui.com", "-m", "/components/**", ] } } }
緩存機(jī)制:默認(rèn)會(huì)在 ~/.cache/sitemcp 中緩存抓取的頁面。如果不需要緩存,可以通過 --no-cache 標(biāo)志來禁用。
sitemcp應(yīng)用
sitemcp 等于是把靜態(tài)網(wǎng)站變成了一個(gè)可交互的知識(shí)庫,配合 MCP 客戶端進(jìn)行提問,解鎖了更豐富的應(yīng)用場(chǎng)景。例如,用戶可以將抓取的網(wǎng)站內(nèi)容作為知識(shí)庫,通過 MCP 客戶端進(jìn)行提問,獲取更精準(zhǔn)的信息。
sitemcp使用教程
安裝:sitemcp 支持多種安裝方式。可以使用以下命令進(jìn)行一次性安裝:
bunx sitemcp npx sitemcp pnpx sitemcp
或者,也可以將其全局安裝:
bun i -g sitemcp npm i -g sitemcp pnpm i -g sitemcp
使用:使用時(shí)只需指定目標(biāo)網(wǎng)站的 URL:
sitemcp https://daisyui.com
還可以通過 --concurrency 參數(shù)指定并發(fā)數(shù),以提高抓取效率:
sitemcp https://daisyui.com --concurrency 10
github地址:https://github.com/ryoppippi/sitemcp