Arxiv Daily AIGC:一個(gè)arXiv論文爬蟲、分析和整理自動(dòng)化工具
Arxiv Daily AIGC是什么?
Arxiv Daily AIGC 是一個(gè)AI驅(qū)動(dòng)的arXiv論文爬蟲、分析和整理自動(dòng)化工具,每天從 arXiv 的 cs.CV 領(lǐng)域提取最新論文,通過 OpenRouter API 篩選出與圖像、視頻和多模態(tài)生成相關(guān)的論文,并對(duì)其價(jià)值進(jìn)行評(píng)估。篩選后的論文信息會(huì)被保存為 JSON 文件,再根據(jù)這些數(shù)據(jù)生成美觀的 HTML 每日?qǐng)?bào)告,并更新主頁(yè)。整個(gè)流程,包括每日定時(shí)抓取、篩選、生成和部署到 GitHub Pages,都是通過 GitHub Actions 自動(dòng)完成的。
Arxiv Daily AIGC功能特點(diǎn)
數(shù)據(jù)抓取:每天自動(dòng)從arXiv的計(jì)算機(jī)視覺(cs.CV)領(lǐng)域抓取最新論文。
AI篩選:使用大型語言模型(LLM,目前通過OpenRouter API)智能篩選與圖像/視頻/多模態(tài)生成相關(guān)的論文,并從不同維度對(duì)論文的價(jià)值進(jìn)行評(píng)分。
數(shù)據(jù)存儲(chǔ):將篩選后的論文信息(標(biāo)題、摘要、鏈接等)以日期命名的JSON文件形式保存(存儲(chǔ)在daily_json/目錄中)。
網(wǎng)頁(yè)生成:基于JSON數(shù)據(jù)使用預(yù)設(shè)模板生成每日HTML報(bào)告(存儲(chǔ)在daily_html/目錄中),并更新主入口頁(yè)面index.html。
自動(dòng)化部署:通過GitHub Actions實(shí)現(xiàn)每日定時(shí)抓取、篩選、生成和部署到GitHub Pages的完整流程。
Arxiv Daily AIGC技術(shù)棧
后端/腳本:Python 3.x(使用arxiv、requests、jinja2等庫(kù))。
前端:HTML5、TailwindCSS(CDN)、JavaScript、Framer Motion(CDN)。
自動(dòng)化:GitHub Actions。
部署:GitHub Pages。
Arxiv Daily AIGC安裝與使用
克隆倉(cāng)庫(kù):使用git clone命令克隆項(xiàng)目到本地。
創(chuàng)建并激活虛擬環(huán)境:推薦使用Python虛擬環(huán)境。
安裝依賴:安裝requirements.txt文件中列出的所有Python庫(kù)。
配置API密鑰:項(xiàng)目需要OpenRouter API密鑰進(jìn)行AI篩選。
Arxiv Daily AIGC使用方法
本地運(yùn)行:直接運(yùn)行主腳本main.py手動(dòng)觸發(fā)完整流程(抓取、篩選、生成)。
GitHub Actions自動(dòng)化:倉(cāng)庫(kù)配置了GitHub Actions工作流(.github/workflows/daily_arxiv.yml),默認(rèn)每天定時(shí)運(yùn)行。
相關(guān)鏈接
Github:https://github.com/onion-liu/arxiv_daily_aigc
項(xiàng)目主頁(yè):https://www.aha-time.com/arxiv_daily_aigc/