Proxyless LLM Websearch:無(wú)需代理的LLM網(wǎng)絡(luò)搜索引擎
Proxyless LLM Websearch是什么?
Proxyless LLM Websearch是一個(gè)無(wú)需代理的LLM網(wǎng)絡(luò)搜索引擎,支持多引擎搜索、智能解析和異步處理,支持URL內(nèi)容解析和網(wǎng)頁(yè)爬取,結(jié)合LangGraph實(shí)現(xiàn)模塊化智能體鏈路,專(zhuān)為大語(yǔ)言模型的外部知識(shí)調(diào)用場(chǎng)景而設(shè)計(jì)。
Proxyless LLM Websearch特性
無(wú)需代理:通過(guò)Playwright配置國(guó)內(nèi)瀏覽器支持,無(wú)需代理也能進(jìn)行網(wǎng)絡(luò)搜索。
多搜索引擎支持:支持Bing、夸克、百度、搜狗等主流搜索引擎,增強(qiáng)信息來(lái)源多樣性。
意圖識(shí)別:系統(tǒng)能夠根據(jù)用戶(hù)的輸入內(nèi)容,自動(dòng)判斷是進(jìn)行網(wǎng)絡(luò)搜索還是解析URL。
查詢(xún)分解:根據(jù)用戶(hù)的搜索意圖,自動(dòng)將查詢(xún)分解為多個(gè)子任務(wù),并依次執(zhí)行,從而提升搜索的相關(guān)性與效率。
智能體架構(gòu):基于LangGraph封裝的“web_search”與“l(fā)ink_parser”。
異步并發(fā)任務(wù)處理:支持異步并發(fā)任務(wù)處理,可高效處理多個(gè)搜索任務(wù)。
內(nèi)容處理優(yōu)化
內(nèi)容切片:將網(wǎng)頁(yè)長(zhǎng)內(nèi)容按段切分。
內(nèi)容重排:智能重排序,提高信息相關(guān)性。
內(nèi)容過(guò)濾:自動(dòng)剔除無(wú)關(guān)或重復(fù)內(nèi)容。
多端支持
FastAPI后端接口:可集成到任意系統(tǒng)中。
Gradio Web UI:可快速部署成可視化應(yīng)用。
瀏覽器插件支持:支持Edge,提供智能URL解析插件,直接在瀏覽器中發(fā)起網(wǎng)頁(yè)解析與內(nèi)容提取請(qǐng)求。
安裝使用
克隆倉(cāng)庫(kù):
git clone https://github.com/itshyao/proxyless-llm-websearch.git cd proxyless-llm-websearch
安裝依賴(lài):
pip install -r requirements.txt python -m playwright install
環(huán)境變量配置:
需要配置 OPENai_API_KEY、OPENAI_BASE_URL、MODEL_NAME、EMBEDDING_MODEL_NAME、EMBEDDING_API_KEY、EMBEDDING_BASE_URL 等環(huán)境變量。
運(yùn)行示例:
運(yùn)行 demo:
python demo.py
運(yùn)行 FastAPI 后端接口:
python api_serve.py
運(yùn)行 Gradio Web UI:
python gradio_demo.py
測(cè)試效果
基于阿里的 WebWalkerQA 高難度問(wèn)答數(shù)據(jù)集,與火山方舟、百煉等知名在線(xiàn)檢索接口對(duì)比,proxyless-llm-websearch 取得了最高的正確率和最低的錯(cuò)誤率
Github庫(kù):https://github.com/itshyao/proxyless-llm-websearch