Arxiv Daily AIGC:一個arXiv論文爬蟲、分析和整理自動化工具
Arxiv Daily AIGC是什么?
Arxiv Daily AIGC 是一個AI驅(qū)動的arXiv論文爬蟲、分析和整理自動化工具,每天從 arXiv 的 cs.CV 領(lǐng)域提取最新論文,通過 OpenRouter API 篩選出與圖像、視頻和多模態(tài)生成相關(guān)的論文,并對其價值進行評估。篩選后的論文信息會被保存為 JSON 文件,再根據(jù)這些數(shù)據(jù)生成美觀的 HTML 每日報告,并更新主頁。整個流程,包括每日定時抓取、篩選、生成和部署到 GitHub Pages,都是通過 GitHub Actions 自動完成的。
Arxiv Daily AIGC功能特點
數(shù)據(jù)抓取:每天自動從arXiv的計算機視覺(cs.CV)領(lǐng)域抓取最新論文。
AI篩選:使用大型語言模型(LLM,目前通過OpenRouter API)智能篩選與圖像/視頻/多模態(tài)生成相關(guān)的論文,并從不同維度對論文的價值進行評分。
數(shù)據(jù)存儲:將篩選后的論文信息(標(biāo)題、摘要、鏈接等)以日期命名的JSON文件形式保存(存儲在daily_json/目錄中)。
網(wǎng)頁生成:基于JSON數(shù)據(jù)使用預(yù)設(shè)模板生成每日HTML報告(存儲在daily_html/目錄中),并更新主入口頁面index.html。
自動化部署:通過GitHub Actions實現(xiàn)每日定時抓取、篩選、生成和部署到GitHub Pages的完整流程。
Arxiv Daily AIGC技術(shù)棧
后端/腳本:Python 3.x(使用arxiv、requests、jinja2等庫)。
前端:HTML5、TailwindCSS(CDN)、JavaScript、Framer Motion(CDN)。
自動化:GitHub Actions。
部署:GitHub Pages。
Arxiv Daily AIGC安裝與使用
克隆倉庫:使用git clone命令克隆項目到本地。
創(chuàng)建并激活虛擬環(huán)境:推薦使用Python虛擬環(huán)境。
安裝依賴:安裝requirements.txt文件中列出的所有Python庫。
配置API密鑰:項目需要OpenRouter API密鑰進行AI篩選。
Arxiv Daily AIGC使用方法
本地運行:直接運行主腳本main.py手動觸發(fā)完整流程(抓取、篩選、生成)。
GitHub Actions自動化:倉庫配置了GitHub Actions工作流(.github/workflows/daily_arxiv.yml),默認每天定時運行。
相關(guān)鏈接
Github:https://github.com/onion-liu/arxiv_daily_aigc
項目主頁:https://www.aha-time.com/arxiv_daily_aigc/