我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Xiaomi MiMo:小米開源的首個“為推理而生”的大模型

Xiaomi MiMo 是小米公司于 2025 年 4 月 30 日宣布開源的首個為推理而生的ai大模型。MiMo - 7B 系列模型通過充分挖掘語言模型的推理潛力,不僅關(guān)注后訓(xùn)練,還注重針對推理的預(yù)訓(xùn)練策略。該系列模型在相對較小的 7B 規(guī)模下,展現(xiàn)出超越許多 32B 模型的推理能力,其中 MiMo - 7B - RL 在數(shù)學(xué)和代碼推理任務(wù)上的表現(xiàn)可與 OpenAI o1 - mini 相媲美。

Xiaomi MiMo:小米開源的首個“為推理而生”的大模型.webp

MiMo核心特點

預(yù)訓(xùn)練

  • 數(shù)據(jù)預(yù)處理優(yōu)化:改進文本提取工具包,采用多維數(shù)據(jù)過濾,增加預(yù)訓(xùn)練數(shù)據(jù)中的推理模式密度。

  • 合成數(shù)據(jù)生成:運用多種策略生成大量多樣化的合成推理數(shù)據(jù)。

  • 三階段數(shù)據(jù)混合:預(yù)訓(xùn)練采用三階段數(shù)據(jù)混合策略,MiMo - 7B - Base 在約 25 萬億個標記上進行預(yù)訓(xùn)練。

  • 多令牌預(yù)測:引入多令牌預(yù)測作為額外訓(xùn)練目標,提升模型性能并加速推理。

后訓(xùn)練

  • 優(yōu)質(zhì)訓(xùn)練數(shù)據(jù):精心挑選 130K 個數(shù)學(xué)和代碼問題作為 RL 訓(xùn)練數(shù)據(jù),每個問題都經(jīng)過仔細清理和難度評估,并使用基于規(guī)則的驗證器確保數(shù)據(jù)質(zhì)量。

  • 代碼獎勵機制:針對具有挑戰(zhàn)性的代碼問題,引入測試難度驅(qū)動的代碼獎勵,通過為不同難度的測試用例分配細粒度分數(shù),優(yōu)化策略。

  • 數(shù)據(jù)重采樣:對簡單問題實施數(shù)據(jù)重采樣策略,提高滾動采樣效率,穩(wěn)定策略更新。

RL 基礎(chǔ)設(shè)施

  • 無縫滾動引擎:開發(fā)無縫滾動引擎,集成連續(xù)滾動、異步獎勵計算和提前終止功能,減少 GPU 空閑時間,使訓(xùn)練速度提高 2.29 倍,驗證速度提高 1.96 倍。

  • MTP 支持:在 vLLM 中支持 MTP,并增強 RL 系統(tǒng)中推理引擎的魯棒性。

MiMo模型版本

  • MiMo - 7B - Base:具有卓越推理潛力的基礎(chǔ)模型

  • MiMo - 7B - RL - Zero:從基礎(chǔ)模型訓(xùn)練的 RL 模型

  • MiMo - 7B - SFT:從基礎(chǔ)模型訓(xùn)練的 SFT 模型

  • MiMo - 7B - RL:從 SFT 模型訓(xùn)練的 RL 模型,性能與 OpenAI o1 - mini 相當。

技術(shù)細節(jié)與創(chuàng)新點

  • 預(yù)訓(xùn)練數(shù)據(jù)優(yōu)化:通過多維度數(shù)據(jù)過濾和合成推理數(shù)據(jù)生成,提升了預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量和推理模式密度。

  • MTP模塊:在預(yù)訓(xùn)練中引入MTP模塊,顯著提升了推理任務(wù)的性能和推理速度。

  • RL基礎(chǔ)設(shè)施:開發(fā)了無縫回放引擎(Seamless Rollout Engine),加速了RL訓(xùn)練和驗證過程,分別實現(xiàn)了2.29倍和1.96倍的速度提升。

  • 測試難度驅(qū)動獎勵機制:為解決代碼問題中的稀疏獎勵問題,提出了基于測試難度的獎勵機制,提升了模型在困難問題上的學(xué)習(xí)效率。

實驗與結(jié)果

預(yù)訓(xùn)練模型性能

  • MiMo-7B-Base:在多個基準測試中超越了其他7B參數(shù)規(guī)模的開源模型,如BBH、SuperGPQA等。

  • 推理潛力評估:采用pass@k指標評估模型的推理潛力,MiMo-7B-Base在所有基準測試中均展現(xiàn)出更高的pass@k分數(shù)。

后訓(xùn)練模型性能

  • MiMo-7B-RL-Zero:直接從MiMo-7B-Base進行RL訓(xùn)練,展現(xiàn)了強大的推理能力。

  • MiMo-7B-RL:從SFT模型進行RL訓(xùn)練,最終在數(shù)學(xué)和代碼任務(wù)上超越了OpenAI的o1-mini模型。

  • 具體表現(xiàn):

  • 在AIME 2025中,MiMo-7B-RL得分55.4,超過o1-mini 4.7分。

  • 在LiveCodeBench v5和v6中,MiMo-7B-RL顯著優(yōu)于o1-mini。

相關(guān)鏈接

Hugging Face平臺:https://huggingface.co/XiaomiMiMo       

GitHub 倉庫:https://github.com/XiaomiMiMo/MiMo  

技術(shù)報告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

收藏
最新工具
PrettyScale
PrettyScale

一個在線面部分析及顏值打分網(wǎng)站,用戶通過上傳照片或直接用攝像頭參...

圓周旅跡
圓周旅跡

一款旅游出行AI智能規(guī)劃APP,它可以直接從小紅書這些平臺導(dǎo)入別...

Wonderplan AI
Wonderplan AI

一個免費的AI旅游規(guī)劃工具,能根據(jù)你的喜好、需求生成專屬行程,支...

智寫流程
智寫流程

一個能自動記錄網(wǎng)頁操作并生成操作指南的工具。它能捕捉鼠標點擊、鍵...

ReactBits
ReactBits

一個免費開源的動畫化、可交互React組件庫,里面有好多動畫化、...

電視眼
電視眼

也叫TV眼,是一個在線網(wǎng)絡(luò)電視直播網(wǎng)站,提供全國5000+個電視...

Excel Dashboard Ai
Excel Dashboard Ai

一款能自動把 Excel 或 CSV 文件變成帶交互功能的儀表盤...

ByRutor
ByRutor

俄羅斯的一個免費游戲資源下載網(wǎng)站,提供超23,000多款游戲,涵...

RandomStreetView
RandomStreetView

一個可以隨機展示全球谷歌街景照片的網(wǎng)站,每次點按鈕,系統(tǒng)會隨機選...

ZType
ZType

官網(wǎng):zty.pe,一個把打字練習(xí)和射擊游戲結(jié)合的在線工具。玩家...

主站蜘蛛池模板: 望城县| 长寿区| 五大连池市| 正镶白旗| 高清| 封开县| 昭平县| 嘉义市| 达尔| 象州县| 鄄城县| 阳曲县| 平定县| 瑞金市| 吴旗县| 专栏| 金湖县| 中方县| 泾阳县| 秦皇岛市| 灵璧县| 铜鼓县| 太保市| 乌拉特中旗| 吴川市| 汝城县| 烟台市| 澄江县| 徐州市| 宁陵县| 河东区| 靖边县| 汕头市| 玛曲县| 金山区| 东莞市| 仙桃市| 屏东县| 新竹县| 石河子市| 大冶市|