DevDocs:一款專為程序員打造的開源文檔爬取和處理工具
DevDocs是什么?
DevDocs 是一款由 CyberAGI Inc專為程序員設計的開源技術文檔管理工具。它支持智能爬取技術文檔,可自定義爬取深度,自動發現并分類相關內容,提取純凈信息并支持導出為 MD 或 JSON 格式,將以往需要花數周理解文檔的時間縮短至幾個小時。除此之外,DevDocs還內置 MCP 服務器,支持集成到 Claude、Cursor、Cline 等 ai 應用,實現聊天對話查詢文檔。
DevDocs功能特征
智能爬取:
支持選擇爬取深度(1-5 級)。
自動發現并分類所有相關頁面。
可選擇性爬取,精確提取所需內容。
自動檢測并映射網站結構中的子 URL。
性能與速度:
支持并行處理,可同時爬取多個頁面。
智能緩存,避免重復爬取內容。
支持懶加載,可處理現代 Web 應用。
尊重服務器,設置了爬取速率限制。
內容處理:
提取純凈內容,去除無關信息。
支持導出為 MD 或 JSON 格式,方便用于 LLM 微調。
邏輯化組織內容,便于理解和使用。
與 MCP 服務器集成,可直接用于 AI 處理。
企業級功能:
爬取失敗時自動重試。
全面記錄操作日志。
提供 API 接口,方便與其他工具集成。
支持團隊管理,可設置多個席位和角色。
DevDocs使用教程方法
啟動服務:
使用 Docker(推薦):
克隆項目倉庫:git clone https://github.com/cyberagiinc/DevDocs.git
進入項目目錄:cd DevDocs
根據操作系統運行啟動腳本:
Mac/Linux:./docker-start.sh
Windows:docker-start.bat
手動設置權限(Windows 用戶可能需要):
通過 Windows 資源管理器:
右鍵單擊 logs、storage、crawl_results 目錄。
選擇“屬性”。
切換到“安全”選項卡。
點擊“編輯”以更改權限。
點擊“添加”以添加用戶或組。
輸入“Everyone”,并點擊“檢查名稱”。
點擊“確定”。
在列表中選擇“Everyone”。
勾選“允許”下的“完全控制”。
點擊“應用”和“確定”。
通過命令提示符(以管理員身份運行):
icacls logs /grant Everyone:F /T icacls storage /grant Everyone:F /T icacls crawl_results /grant Everyone:F /T
訪問 DevDocs:
前端 UI:http://localhost:3001
后端 API:http://localhost:24125
Crawl4AI 服務:http://localhost:11235
查看日志:
使用 Docker 時,可以通過以下命令查看容器日志:
查看特定容器的日志:docker logs devdocs-frontend、docker logs devdocs-backend、docker logs devdocs-mcp、docker logs devdocs-crawl4ai
實時跟蹤日志:docker logs -f devdocs-backend
停止服務:
在運行 docker-start 的終端中按下 Ctrl+C。
如何集成Cline/Roo
1. 創建模式:
在Roo Code中打開“模式”界面,點擊+號創建一個新的模式特定提示。
2. 命名模式(例如,Research_MCP)。
3. 定義角色:
專業知識:開發者文檔檢索、技術綜合和文檔搜索。
個性:系統化、注重細節、精確。
行為指令:始終使用目錄和章節訪問工具來回答關于MCP文檔的查詢。
4. 自定義指令:
目錄工具:返回完整的或過濾后的文檔主題列表。
章節訪問工具:檢索特定文檔章節的詳細內容。
5. 工作流程:
解析用戶查詢以提取關鍵主題、關鍵詞和上下文。
使用目錄工具搜索文檔索引以找到相關章節。
對于每個識別出的相關文檔或章節,使用章節訪問工具檢索其內容。
合并檢索到的內容,確保包含所有必要的細節,并清晰引用。
Github:https://github.com/cyberagiinc/DevDocs
官網:https://www.cyberagi.ai/