我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

dots.llm1:小紅書Hi Lab發(fā)布的首個(gè)開源大模型

小紅書于2025年6月7日開放其首個(gè)大模型dots.llm1,是小紅書Hi Lab(人文智能實(shí)驗(yàn)室)自主研發(fā)的,dots.llm1是一個(gè)1420億參數(shù)的專家混合模型(MoE),通過推理時(shí)只激活140億參數(shù),保持高性能的同時(shí),大大降低了訓(xùn)練和推理成本。

dots.llm1:小紅書Hi Lab發(fā)布的首個(gè)開源大模型.webp

模型特色

  • 使用大規(guī)模自然訓(xùn)練數(shù)據(jù):使用11.2萬億token非合成高質(zhì)量訓(xùn)練數(shù)據(jù),在現(xiàn)階段的開源大模型中非常少見,這使得它在中文測試中有強(qiáng)大的性能,以91.3的平均分超過了DeepSeek開源的V2、V3和阿里開源的Qwen2.5 32B和72B。 

  • 架構(gòu)設(shè)計(jì):使用單向解碼器Transformer架構(gòu),但將前饋網(wǎng)絡(luò)替換成MoE。在推理時(shí)不激活全部專家網(wǎng)絡(luò),而是根據(jù)輸入標(biāo)記的性質(zhì)動態(tài)選擇激活一小部分專家網(wǎng)絡(luò)做計(jì)算,這種稀疏激活的方式極大降低了算力需求的同時(shí)保證了模型高性能。dots.llm1的MoE由128個(gè)路由專家和2個(gè)共享專家組成,每個(gè)專家網(wǎng)絡(luò)是一個(gè)兩層的前饋網(wǎng)絡(luò),使用SwiGLU激活函數(shù)。在每個(gè)輸入標(biāo)記的處理上會通過一個(gè)路由機(jī)制選擇6個(gè)最相關(guān)的專家網(wǎng)絡(luò),加上2個(gè)共享專家,總共激活8個(gè)專家網(wǎng)絡(luò)。 

  • 注意力層優(yōu)化:使用經(jīng)典的多頭注意力機(jī)制(MHA),且在其基礎(chǔ)上添加了RMSNorm歸一化操作,避免了輸入值過大或過小對模型訓(xùn)練的影響,從而提高了模型的穩(wěn)定性和性能。 

  • 負(fù)載平衡策略:在MoE模塊上引入了無輔助損失負(fù)載平衡策略。

模型性能

  • 中文測試:中文測試表現(xiàn)出色,如在CLUEWSC語義理解上得分92.6,為業(yè)內(nèi)領(lǐng)先水平;C-Eval綜合知識測試得分92.2超過了包括DeepSeek-V3在內(nèi)所有對比模型;中文任務(wù)平均得分80.5,明顯領(lǐng)先;以91.3的平均分超過了DeepSeek開源的V2、V3與阿里 open Qwen2.5 32B、72B。

  • 數(shù)學(xué)推理:在MATH500基線測試得到84.8分,接近行業(yè)頂尖;在aiME24競賽題上得分33.1,體現(xiàn)出處理復(fù)雜數(shù)學(xué)問題的能力;CNMO24(中國數(shù)學(xué)奧林匹克)得分40.6,數(shù)學(xué)綜合得分60.9。

  • 英語和代碼能力:在MMLU、DROP、 GPQA等英語基準(zhǔn)測試與Qwen相當(dāng),平均得分64.4;代碼能力平均分達(dá)到了Qwen2.5的水平。

  • 指令和人類偏好對齊:在IFEval、AlpacaEval2、ArenaHard等指令和人類偏好對齊上,平均得分為77.9,表明模型能夠準(zhǔn)確理解和執(zhí)行復(fù)雜的指令。

成本控制優(yōu)勢

與Qwen2.5-72B相比,dots.llm1在訓(xùn)練每萬億token時(shí),GPU小時(shí)從340K減少到130K,效率提升得益于其獨(dú)特的通信和計(jì)算重疊方案及高效的分組GEMM實(shí)現(xiàn)。

模型支持與應(yīng)用場景

  • 支持功能:支持中英雙語,上下文長度達(dá)32768個(gè)token,還支持function call功能,官方提供的mmlu-pro評測分?jǐn)?shù)比Qwen3-235b-a22b好,但與最新的DeepSeek-V3相當(dāng)。

  • 應(yīng)用場景:結(jié)合小紅書生活方式分享平臺積累的海量高質(zhì)量UGC內(nèi)容,以及日均近6億的搜索量與70%月活用戶使用搜索功能,dots.llm1在生活場景對話、創(chuàng)意寫作、生活經(jīng)驗(yàn)答疑等方面有其獨(dú)特的應(yīng)用優(yōu)勢,小紅書也正在圍繞這一點(diǎn)構(gòu)建自己的AI技術(shù)體系。

開源地址:https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main

收藏
最新工具
PrettyScale
PrettyScale

一個(gè)在線面部分析及顏值打分網(wǎng)站,用戶通過上傳照片或直接用攝像頭參...

圓周旅跡
圓周旅跡

一款旅游出行AI智能規(guī)劃APP,它可以直接從小紅書這些平臺導(dǎo)入別...

Wonderplan AI
Wonderplan AI

一個(gè)免費(fèi)的AI旅游規(guī)劃工具,能根據(jù)你的喜好、需求生成專屬行程,支...

智寫流程
智寫流程

一個(gè)能自動記錄網(wǎng)頁操作并生成操作指南的工具。它能捕捉鼠標(biāo)點(diǎn)擊、鍵...

ReactBits
ReactBits

一個(gè)免費(fèi)開源的動畫化、可交互React組件庫,里面有好多動畫化、...

電視眼
電視眼

也叫TV眼,是一個(gè)在線網(wǎng)絡(luò)電視直播網(wǎng)站,提供全國5000+個(gè)電視...

Excel Dashboard Ai
Excel Dashboard Ai

一款能自動把 Excel 或 CSV 文件變成帶交互功能的儀表盤...

ByRutor
ByRutor

俄羅斯的一個(gè)免費(fèi)游戲資源下載網(wǎng)站,提供超23,000多款游戲,涵...

RandomStreetView
RandomStreetView

一個(gè)可以隨機(jī)展示全球谷歌街景照片的網(wǎng)站,每次點(diǎn)按鈕,系統(tǒng)會隨機(jī)選...

ZType
ZType

官網(wǎng):zty.pe,一個(gè)把打字練習(xí)和射擊游戲結(jié)合的在線工具。玩家...

主站蜘蛛池模板: 保靖县| 界首市| 河西区| 那坡县| 区。| 久治县| 平邑县| 九寨沟县| 池州市| 正阳县| 铜鼓县| 会同县| 崇阳县| 喀喇沁旗| 平泉县| 绿春县| 庆云县| 西乡县| 卢湾区| 遵义县| 哈密市| 谷城县| 博野县| 洪江市| 隆回县| 七台河市| 安庆市| 西安市| 张家港市| 高平市| 科技| 佛学| 亚东县| 河间市| 探索| 江北区| 阿荣旗| 和田县| 靖宇县| 塔城市| 上高县|