Crawl4LLM:專為LLM預訓練準備的網絡爬蟲工具
Crawl4LLM是什么?
Crawl4LLM是清華大學和卡內基梅隆大學一起開發的,專門給大型語言模型(LLM)預訓練用的網絡爬蟲工具。它能智能判斷網頁對LLM預訓練的作用,先抓那些有價值的網頁,少抓沒用的,僅抓取了21%的網絡數據,就與之前全部抓取的數據性能相同,這樣數據質量就提高了,爬取速度也快了不少。

項目情況:
來源:清華和卡內基梅隆大學合作開源的。
目標:解決傳統爬蟲抓取效率低、數據質量差的問題,讓LLM預訓練更高效。
Crawl4LLM的主要功能:
智能選網頁
智能評估:能自動看網頁對LLM預訓練有沒有用,先抓有用的。
效率高:比傳統爬蟲抓的網頁少多了,效果卻差不多甚至更好,效率差不多能提高5倍。
多種爬取辦法
智能模式:主要的模式,自動挑有價值的網頁抓。
隨機爬取模式:網頁內容不用太精確選的時候能用。
按鏈接數量爬取模式:要抓大量數據的時候可以用。
狀態管理和恢復
定期保存:能定期存爬蟲的狀態,要是中途停了,能接著上次的地方抓,不會丟數據。
數據可視化工具
直觀查看:有數據瀏覽工具,能看抓的數據,隨時了解進度和效果。
兼容性和集成
和DCLM框架對接:能提取文檔ID、拿文檔內容,還能和深度學習模型(DCLM)預訓練框架無縫連接,直接給模型訓練用。
Crawl4LLM的技術細節:
模塊架構:有爬蟲調度器、網頁解析器、數據存儲器這些模塊。
錯誤處理:有很強的糾錯和自動重試能力,保證數據采集穩定。
數據質量管理:能去重和清洗數據,讓數據質量好又一致。
Crawl4LLM的應用場景:
LLM預訓練:給大規模LLM預訓練提供好數據。
數據集構建:自己做數據集。
搜索引擎優化:分析改進SEO策略。
網絡監測與分析:實時看網絡情況。
寫在網絡監測與分析:做情感分析和其他數據分析。
Crawl4LLM的使用方法:
1. 準備工作:
獲取ClueWeb22數據集。
創建Python虛擬環境并安裝必要的庫(numpy, tqdm, fasttext, pyyaml, wandb)。
下載DCLM FastText分類器并放置在指定目錄。
2. 創建配置文件:在configs/目錄下創建一個YAML配置文件,指定數據集路徑、種子文檔列表、輸出目錄、每次迭代選擇的文檔數量、工作線程數、爬取狀態保存頻率、最大爬取文檔數量、文檔選擇方法、排序方式、是否啟用wandb日志記錄等參數。
3. 啟動爬蟲:在命令行中運行python crawl.py crawl --config
Crawl4LLM作為一個專業性強的爬蟲系統,很適合用來給大語言模型做預訓練。它先進的算法和技術方面的特點,能讓抓取數據的效率和質量都有明顯提升,這樣就能讓大語言模型的發展更快一些。
GitHub倉庫:https://github.com/cxcscmu/crawl4llm
論文地址:https://arxiv.org/pdf/2502.13347
提交您的產品
Ai應用
Ai資訊
AI生圖
AI生視頻
開源AI應用平臺










