SuperGPQA:字節(jié)跳動豆包推出的一個知識推理基準(zhǔn)測試集
SuperGPQA是什么
SuperGPQA是字節(jié)跳動豆包大模型團隊和M - A - P開源社區(qū)一起推出的全新綜合基準(zhǔn)測試。它主要是用來全面評估大型語言模型在285個研究生學(xué)科里的知識水平和推理能力。
這個基準(zhǔn)測試有一套很厲害的人機協(xié)作過濾機制,也就是結(jié)合大語言模型的回答和專家給出的反饋,不斷打磨問題,把那些沒什么價值或者表述模糊的內(nèi)容去掉。它的覆蓋范圍特別廣,從數(shù)學(xué)、物理、計算機科學(xué)這些常見學(xué)科,到輕工業(yè)、農(nóng)業(yè)、服務(wù)科學(xué)等相對小眾的學(xué)科都有涉及。
SuperGPQA特點:
學(xué)科覆蓋廣:SuperGPQA 覆蓋了 285 個研究生學(xué)科,包括數(shù)學(xué)、物理、計算機科學(xué)等主流學(xué)科,以及輕工業(yè)、農(nóng)業(yè)、服務(wù)科學(xué)等長尾學(xué)科。使SuperGPQA 能夠全面評估大型語言模型(LLMs)在多樣化知識領(lǐng)域的推理能力。
人機協(xié)作過濾機制:通過結(jié)合 LLM 的響應(yīng)和專家反饋,SuperGPQA 采用迭代精煉的方式,消除瑣碎或模糊的問題,保證問題質(zhì)量好、有深度。
集優(yōu)質(zhì)數(shù)據(jù)集:通過專家篩選、規(guī)范化轉(zhuǎn)錄、多層質(zhì)量檢驗這三步來構(gòu)建數(shù)據(jù)集。題目平均有9.67個選項,而且42.33%的題目需要進(jìn)行數(shù)學(xué)計算或者形式推理。
全面的模型性能評估:能詳細(xì)對比不同模型的性能,還支持零樣本和少樣本等多種評估方式 。
問題數(shù)量與難度:它包含26,529個專業(yè)問題,平均每題提供9.67個選項,42.33%的問題需要數(shù)學(xué)計算或形式推理,能很好地檢驗?zāi)P驮诟唠y度任務(wù)中的表現(xiàn)。
SuperGPQA應(yīng)用:
評估ai模型:看看大型語言模型在不同知識領(lǐng)域的推理能力怎么樣,找出模型的長處和短板。
學(xué)術(shù)研究:給研究人員提供一個標(biāo)準(zhǔn)的測試框架,幫助他們開發(fā)出更厲害的人工智能模型。
教育領(lǐng)域:可以用來開發(fā)像自動化知識評估系統(tǒng)這樣的智能教育工具。
行業(yè)應(yīng)用:在醫(yī)療、法律、金融等行業(yè)里,評估人工智能模型的專業(yè)知識推理能力,讓這些行業(yè)的智能化水平得到提升 。
論文:https://arxiv.org/pdf/2502.14739
HuggingFace:https://huggingface.co/datasets/m-a-p/SuperGPQA
GitHub倉庫:https://github.com/SuperGPQA/SuperGPQA