
LMArena AI
LMArena AI簡(jiǎn)介
LMArena ai,前身為lmsys.org,一個(gè)專注于眾包AI基準(zhǔn)測(cè)試的AI模型評(píng)估平臺(tái),由加州大學(xué)伯克利分校SkyLab和LMSYS研究團(tuán)隊(duì)打造。類似 V0 或者 Bolt 的平臺(tái),區(qū)別是你輸入一個(gè)需求后會(huì)有兩個(gè)模型給出代碼并且會(huì)把前端頁(yè)面渲染出來(lái)你去打分。用戶可以在此平臺(tái)上免費(fèi)與AI聊天并進(jìn)行投票,比較和測(cè)試不同的AI聊天機(jī)器人。
LMArena AI功能特征:
盲測(cè)模式:用戶可以對(duì)兩個(gè)匿名AI模型提出問(wèn)題,然后選擇最佳回復(fù),確保評(píng)估公平性。
匿名對(duì)戰(zhàn):用戶可以在平臺(tái)上與多個(gè)匿名的AI聊天機(jī)器人進(jìn)行互動(dòng),提出問(wèn)題并獲得不同機(jī)器人的回答。這種方式允許用戶在不知曉模型身份的情況下進(jìn)行比較,從而減少偏見(jiàn)。
投票系統(tǒng):用戶可以對(duì)不同AI的回答進(jìn)行投票,幫助平臺(tái)收集數(shù)據(jù)以評(píng)估各個(gè)模型的性能。這種眾包的方式使得評(píng)估結(jié)果更加客觀和可靠。
風(fēng)格控制:評(píng)估模型在遵循用戶指令和特定風(fēng)格生成內(nèi)容方面的能力。
排行榜:LMArena AI提供了一個(gè)實(shí)時(shí)更新的排行榜,展示不同AI模型的表現(xiàn)。用戶可以查看哪些模型在特定任務(wù)中表現(xiàn)最佳,幫助他們選擇合適的工具或服務(wù)。
WebDev Arena:該平臺(tái)還擴(kuò)展了一個(gè)名為WebDev Arena的功能,用戶可以在這里輸入需求,系統(tǒng)會(huì)生成兩個(gè)不同的前端頁(yè)面供用戶評(píng)分。這為開(kāi)發(fā)者提供了一個(gè)測(cè)試和比較不同設(shè)計(jì)的機(jī)會(huì)。
LMArena AI還支持多模態(tài)功能,用戶可以在首次提問(wèn)時(shí)上傳圖像,以解鎖多模態(tài)對(duì)戰(zhàn)。這意味著用戶不僅可以與文本模型互動(dòng),還可以通過(guò)圖像與AI進(jìn)行交流,增強(qiáng)了平臺(tái)的互動(dòng)性和實(shí)用性。此外,LMArena AI收集了超過(guò)100萬(wàn)個(gè)用戶投票數(shù)據(jù),以計(jì)算100多個(gè)模型的Elo排行榜,用戶可以查看誰(shuí)是當(dāng)前的LLM冠軍。
LMArena AI使用方法:
訪問(wèn)網(wǎng)站:打開(kāi)lmarena.ai的官方網(wǎng)站。
選擇功能:根據(jù)需要選擇進(jìn)行匿名對(duì)戰(zhàn)或訪問(wèn)WebDev Arena。
提問(wèn)或輸入需求:在相應(yīng)的輸入框中輸入你的問(wèn)題或需求。
查看結(jié)果:系統(tǒng)會(huì)返回多個(gè)AI的回答,用戶可以對(duì)這些回答進(jìn)行比較和投票。
參與投票:在對(duì)戰(zhàn)結(jié)束后,用戶可以對(duì)各個(gè)回答進(jìn)行評(píng)分,幫助平臺(tái)改進(jìn)模型的評(píng)估。
我們國(guó)產(chǎn)大模型DeepSeek-R1在LM Arena的綜合榜單上排名第三,尤其在“Hard Prompts”、“Coding”和“Math”等技術(shù)性領(lǐng)域表現(xiàn)突出。