Paper2Code:科研論文轉換代碼
Paper2Code是什么?
Paper2Code是能把機器學習論文變成能用的代碼框架。這是韓國科學技術院和DeepAuto.ai聯合開發出來的,它像人開發軟件一樣,分“規劃-分析-編碼”三個階段來生成代碼。
Paper2Code工作原理
規劃階段,先搭個大概的框架,設計系統架構,像畫UML圖、定文件結構這些,再規劃文件和模塊怎么協作,最后生成配置文件。
分析階段,仔細看每個文件的功能、輸入輸出,以及和其他文件怎么連。
生成階段,根據前面的規劃和分析,生成有依賴關系的模塊化代碼。
Paper2Code核心功能
自動化代碼生成,能把機器學習論文直接變成完整的代碼倉庫,包括系統架構、依賴文件和配置文件。
多格式輸入,支持PDF和LaTeX格式的論文,還能把PDF論文轉成JSON格式。
三階段處理流程,每個階段都有專門的代理來處理,保證代碼結構清楚,符合論文原意。
規劃階段,畫高層次路線圖,確定核心組件,建模模塊間結構關系,識別文件依賴和執行順序,生成配置文件方便研究人員定制實驗。
分析階段,細致解析每個文件和函數,明確功能、交互以及算法架構約束。
代碼生成階段,根據前面的成果合成整個代碼庫,保證模塊調用一致,減少bug,保持邏輯連貫。
代碼質量評估,支持有參考和無參考的評估,評分1 - 5。
優勢:
高質量代碼生成,在PaperBench基準測試里,Paper2Code比現有的代碼生成框架和簡單基線方法都好。
多智能體協作,通過多智能體框架讓各階段更好完成,提升代碼生成質量。
結構化輸出,生成的代碼庫結構清晰,有文件、模塊、架構圖和配置文件。
高可執行性,生成的代碼基本不用改就能運行。
限制:
目前只支持機器學習領域的論文。
有些邊緣情況還得人工調試。
還不支持生物學、物理學、經濟學等領域。
Paper2Code應用場景
科研復現:幫研究人員從沒代碼的論文里復現結果。
教育:給學生從理論到實踐的學習機會。
加速研究:讓研究人員能更快在別人工作基礎上研究。
實驗調整:方便研究人員調整配置、架構和數據集。
實驗評估顯示,PaperCoder從機器學習論文生成的代碼質量高,接近作者實現水平,比其他基線模型好。
開源鏈接
Github:https://github.com/going-doer/Paper2Code