Cloud&AI
`
2025/4/30 11:30
小米開源首個推理大模型Xiaomi MiMo:7B參數(shù)就超越OpenAI o1-mini
0
0

小米官方今天正式宣布,開源首個為推理(Reasoning)而生的大模型——Xiaomi MiMo

據(jù)介紹,Xiaomi MiMo在數(shù)學(xué)推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評集上,MiMo僅用7B的參數(shù)規(guī)模,超越了OpenAI的閉源推理模型o1-mini和阿里Qwen更大規(guī)模的開源推理模型QwQ-32B-Preview。

小米開源首個推理大模型Xiaomi MiMo:7B參數(shù)就超越OpenAI o1-mini

官方表示,MiMo 推理能力的提升,由預(yù)訓(xùn)練和后訓(xùn)練階段中數(shù)據(jù)和算法等多層面的創(chuàng)新聯(lián)合驅(qū)動。包括:

預(yù)訓(xùn)練:核心是讓模型見過更多推理模式

數(shù)據(jù):著重挖掘富推理語料,并合成約200B tokens推理數(shù)據(jù)。

訓(xùn)練:進(jìn)行了三階段訓(xùn)練,逐步提升訓(xùn)練難度,總訓(xùn)練25T tokens。

小米開源首個推理大模型Xiaomi MiMo:7B參數(shù)就超越OpenAI o1-mini

后訓(xùn)練:核心是高效穩(wěn)定的強化學(xué)習(xí)算法和框架

算法:提出 Test Difficulty Driven Reward 來緩解困難算法問題中的獎勵稀疏問題,并引入 Easy Data Re-Sampling 策略,以穩(wěn)定 RL 訓(xùn)練。

框架:設(shè)計了Seamless Rollout系統(tǒng),使得RL訓(xùn)練加速2.29倍,驗證加速1.96倍。

小米開源首個推理大模型Xiaomi MiMo:7B參數(shù)就超越OpenAI o1-mini

所有技術(shù)細(xì)節(jié)已經(jīng)Open,見技術(shù)報告。

MiMo-7B全系列已開源MiMo-7B 已開源4個模型至HuggingFace。

小米開源首個推理大模型Xiaomi MiMo:7B參數(shù)就超越OpenAI o1-mini

免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

給作者點贊
0 VS 0
寫得不太好

C114簡介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網(wǎng)版權(quán)所有 舉報電話:021-54451141 用戶注銷