dots.llm1:小紅書Hi Lab發(fā)布的首個(gè)開源大模型
小紅書于2025年6月7日開放其首個(gè)大模型dots.llm1,是小紅書Hi Lab(人文智能實(shí)驗(yàn)室)自主研發(fā)的,dots.llm1是一個(gè)1420億參數(shù)的專家混合模型(MoE),通過推理時(shí)只激活140億參數(shù),保持高性能的同時(shí),大大降低了訓(xùn)練和推理成本。
模型特色
使用大規(guī)模自然訓(xùn)練數(shù)據(jù):使用11.2萬億token非合成高質(zhì)量訓(xùn)練數(shù)據(jù),在現(xiàn)階段的開源大模型中非常少見,這使得它在中文測試中有強(qiáng)大的性能,以91.3的平均分超過了DeepSeek開源的V2、V3和阿里開源的Qwen2.5 32B和72B。
架構(gòu)設(shè)計(jì):使用單向解碼器Transformer架構(gòu),但將前饋網(wǎng)絡(luò)替換成MoE。在推理時(shí)不激活全部專家網(wǎng)絡(luò),而是根據(jù)輸入標(biāo)記的性質(zhì)動態(tài)選擇激活一小部分專家網(wǎng)絡(luò)做計(jì)算,這種稀疏激活的方式極大降低了算力需求的同時(shí)保證了模型高性能。dots.llm1的MoE由128個(gè)路由專家和2個(gè)共享專家組成,每個(gè)專家網(wǎng)絡(luò)是一個(gè)兩層的前饋網(wǎng)絡(luò),使用SwiGLU激活函數(shù)。在每個(gè)輸入標(biāo)記的處理上會通過一個(gè)路由機(jī)制選擇6個(gè)最相關(guān)的專家網(wǎng)絡(luò),加上2個(gè)共享專家,總共激活8個(gè)專家網(wǎng)絡(luò)。
注意力層優(yōu)化:使用經(jīng)典的多頭注意力機(jī)制(MHA),且在其基礎(chǔ)上添加了RMSNorm歸一化操作,避免了輸入值過大或過小對模型訓(xùn)練的影響,從而提高了模型的穩(wěn)定性和性能。
負(fù)載平衡策略:在MoE模塊上引入了無輔助損失負(fù)載平衡策略。
模型性能
中文測試:中文測試表現(xiàn)出色,如在CLUEWSC語義理解上得分92.6,為業(yè)內(nèi)領(lǐng)先水平;C-Eval綜合知識測試得分92.2超過了包括DeepSeek-V3在內(nèi)所有對比模型;中文任務(wù)平均得分80.5,明顯領(lǐng)先;以91.3的平均分超過了DeepSeek開源的V2、V3與阿里 open Qwen2.5 32B、72B。
數(shù)學(xué)推理:在MATH500基線測試得到84.8分,接近行業(yè)頂尖;在aiME24競賽題上得分33.1,體現(xiàn)出處理復(fù)雜數(shù)學(xué)問題的能力;CNMO24(中國數(shù)學(xué)奧林匹克)得分40.6,數(shù)學(xué)綜合得分60.9。
英語和代碼能力:在MMLU、DROP、 GPQA等英語基準(zhǔn)測試與Qwen相當(dāng),平均得分64.4;代碼能力平均分達(dá)到了Qwen2.5的水平。
指令和人類偏好對齊:在IFEval、AlpacaEval2、ArenaHard等指令和人類偏好對齊上,平均得分為77.9,表明模型能夠準(zhǔn)確理解和執(zhí)行復(fù)雜的指令。
成本控制優(yōu)勢
與Qwen2.5-72B相比,dots.llm1在訓(xùn)練每萬億token時(shí),GPU小時(shí)從340K減少到130K,效率提升得益于其獨(dú)特的通信和計(jì)算重疊方案及高效的分組GEMM實(shí)現(xiàn)。
模型支持與應(yīng)用場景
支持功能:支持中英雙語,上下文長度達(dá)32768個(gè)token,還支持function call功能,官方提供的mmlu-pro評測分?jǐn)?shù)比Qwen3-235b-a22b好,但與最新的DeepSeek-V3相當(dāng)。
應(yīng)用場景:結(jié)合小紅書生活方式分享平臺積累的海量高質(zhì)量UGC內(nèi)容,以及日均近6億的搜索量與70%月活用戶使用搜索功能,dots.llm1在生活場景對話、創(chuàng)意寫作、生活經(jīng)驗(yàn)答疑等方面有其獨(dú)特的應(yīng)用優(yōu)勢,小紅書也正在圍繞這一點(diǎn)構(gòu)建自己的AI技術(shù)體系。
開源地址:https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main