SuperGPQA:字節跳動豆包推出的一個知識推理基準測試集
SuperGPQA是什么
SuperGPQA是字節跳動豆包大模型團隊和M - A - P開源社區一起推出的全新綜合基準測試。它主要是用來全面評估大型語言模型在285個研究生學科里的知識水平和推理能力。
這個基準測試有一套很厲害的人機協作過濾機制,也就是結合大語言模型的回答和專家給出的反饋,不斷打磨問題,把那些沒什么價值或者表述模糊的內容去掉。它的覆蓋范圍特別廣,從數學、物理、計算機科學這些常見學科,到輕工業、農業、服務科學等相對小眾的學科都有涉及。
SuperGPQA特點:
學科覆蓋廣:SuperGPQA 覆蓋了 285 個研究生學科,包括數學、物理、計算機科學等主流學科,以及輕工業、農業、服務科學等長尾學科。使SuperGPQA 能夠全面評估大型語言模型(LLMs)在多樣化知識領域的推理能力。
人機協作過濾機制:通過結合 LLM 的響應和專家反饋,SuperGPQA 采用迭代精煉的方式,消除瑣碎或模糊的問題,保證問題質量好、有深度。
集優質數據集:通過專家篩選、規范化轉錄、多層質量檢驗這三步來構建數據集。題目平均有9.67個選項,而且42.33%的題目需要進行數學計算或者形式推理。
全面的模型性能評估:能詳細對比不同模型的性能,還支持零樣本和少樣本等多種評估方式 。
問題數量與難度:它包含26,529個專業問題,平均每題提供9.67個選項,42.33%的問題需要數學計算或形式推理,能很好地檢驗模型在高難度任務中的表現。
SuperGPQA應用:
評估ai模型:看看大型語言模型在不同知識領域的推理能力怎么樣,找出模型的長處和短板。
學術研究:給研究人員提供一個標準的測試框架,幫助他們開發出更厲害的人工智能模型。
教育領域:可以用來開發像自動化知識評估系統這樣的智能教育工具。
行業應用:在醫療、法律、金融等行業里,評估人工智能模型的專業知識推理能力,讓這些行業的智能化水平得到提升 。
論文:https://arxiv.org/pdf/2502.14739
HuggingFace:https://huggingface.co/datasets/m-a-p/SuperGPQA
GitHub倉庫:https://github.com/SuperGPQA/SuperGPQA