Proxyless LLM Websearch:無需代理的LLM網絡搜索引擎
Proxyless LLM Websearch是什么?
Proxyless LLM Websearch是一個無需代理的LLM網絡搜索引擎,支持多引擎搜索、智能解析和異步處理,支持URL內容解析和網頁爬取,結合LangGraph實現模塊化智能體鏈路,專為大語言模型的外部知識調用場景而設計。
Proxyless LLM Websearch特性
無需代理:通過Playwright配置國內瀏覽器支持,無需代理也能進行網絡搜索。
多搜索引擎支持:支持Bing、夸克、百度、搜狗等主流搜索引擎,增強信息來源多樣性。
意圖識別:系統能夠根據用戶的輸入內容,自動判斷是進行網絡搜索還是解析URL。
查詢分解:根據用戶的搜索意圖,自動將查詢分解為多個子任務,并依次執行,從而提升搜索的相關性與效率。
智能體架構:基于LangGraph封裝的“web_search”與“link_parser”。
異步并發任務處理:支持異步并發任務處理,可高效處理多個搜索任務。
內容處理優化
內容切片:將網頁長內容按段切分。
內容重排:智能重排序,提高信息相關性。
內容過濾:自動剔除無關或重復內容。
多端支持
FastAPI后端接口:可集成到任意系統中。
Gradio Web UI:可快速部署成可視化應用。
瀏覽器插件支持:支持Edge,提供智能URL解析插件,直接在瀏覽器中發起網頁解析與內容提取請求。
安裝使用
克隆倉庫:
git clone https://github.com/itshyao/proxyless-llm-websearch.git cd proxyless-llm-websearch
安裝依賴:
pip install -r requirements.txt python -m playwright install
環境變量配置:
需要配置 OPENai_API_KEY、OPENAI_BASE_URL、MODEL_NAME、EMBEDDING_MODEL_NAME、EMBEDDING_API_KEY、EMBEDDING_BASE_URL 等環境變量。
運行示例:
運行 demo:
python demo.py
運行 FastAPI 后端接口:
python api_serve.py
運行 Gradio Web UI:
python gradio_demo.py
測試效果
基于阿里的 WebWalkerQA 高難度問答數據集,與火山方舟、百煉等知名在線檢索接口對比,proxyless-llm-websearch 取得了最高的正確率和最低的錯誤率
Github庫:https://github.com/itshyao/proxyless-llm-websearch