Arxiv Daily AIGC:一個arXiv論文爬蟲、分析和整理自動化工具
Arxiv Daily AIGC是什么?
Arxiv Daily AIGC 是一個AI驅動的arXiv論文爬蟲、分析和整理自動化工具,每天從 arXiv 的 cs.CV 領域提取最新論文,通過 OpenRouter API 篩選出與圖像、視頻和多模態生成相關的論文,并對其價值進行評估。篩選后的論文信息會被保存為 JSON 文件,再根據這些數據生成美觀的 HTML 每日報告,并更新主頁。整個流程,包括每日定時抓取、篩選、生成和部署到 GitHub Pages,都是通過 GitHub Actions 自動完成的。
Arxiv Daily AIGC功能特點
數據抓取:每天自動從arXiv的計算機視覺(cs.CV)領域抓取最新論文。
AI篩選:使用大型語言模型(LLM,目前通過OpenRouter API)智能篩選與圖像/視頻/多模態生成相關的論文,并從不同維度對論文的價值進行評分。
數據存儲:將篩選后的論文信息(標題、摘要、鏈接等)以日期命名的JSON文件形式保存(存儲在daily_json/目錄中)。
網頁生成:基于JSON數據使用預設模板生成每日HTML報告(存儲在daily_html/目錄中),并更新主入口頁面index.html。
自動化部署:通過GitHub Actions實現每日定時抓取、篩選、生成和部署到GitHub Pages的完整流程。
Arxiv Daily AIGC技術棧
后端/腳本:Python 3.x(使用arxiv、requests、jinja2等庫)。
前端:HTML5、TailwindCSS(CDN)、JavaScript、Framer Motion(CDN)。
自動化:GitHub Actions。
部署:GitHub Pages。
Arxiv Daily AIGC安裝與使用
克隆倉庫:使用git clone命令克隆項目到本地。
創建并激活虛擬環境:推薦使用Python虛擬環境。
安裝依賴:安裝requirements.txt文件中列出的所有Python庫。
配置API密鑰:項目需要OpenRouter API密鑰進行AI篩選。
Arxiv Daily AIGC使用方法
本地運行:直接運行主腳本main.py手動觸發完整流程(抓取、篩選、生成)。
GitHub Actions自動化:倉庫配置了GitHub Actions工作流(.github/workflows/daily_arxiv.yml),默認每天定時運行。
相關鏈接
Github:https://github.com/onion-liu/arxiv_daily_aigc
項目主頁:https://www.aha-time.com/arxiv_daily_aigc/