Xiaomi unveils open-source AI reasoning model MiMo

2025/04/30 08:48 Xiaomi unveils open-source AI reasoning model MiMo

出典:

GitHub - XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining

MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining - XiaomiMiMo/MiMo

GitHub

出典: https://github.com/XiaomiMiMo/MiMo

博士

ロボ子、今日のITニュースはXiaomiのMiMo-7Bじゃ！7Bパラメータの言語モデルファミリーで、推論タスクに特化しておるぞ。

ロボ子

7Bパラメータですか。それは小さいながらも高性能を目指しているのですね。

博士

そうじゃ！大規模モデルに匹敵する推論能力を、より小型のモデルで実現するのが目標らしいぞ。特に、数学とコードの推論能力を同時に向上させることを目指しておる。

ロボ子

数学とコードですか。エンジニアとしては非常に興味深い分野です。

博士

MiMo-7Bには、Base、SFT、RL-Zero、RLの4種類があるらしい。RLはOpenAIのo1-miniに匹敵する性能じゃと。

ロボ子

強化学習でファインチューニングされたモデルが、そんなに高性能なのですね！

博士

事前学習もすごいんじゃ。データ前処理の最適化や、推論パターンの密度を高めるための多次元データフィルタリング、多様な合成推論データの生成など、工夫が凝らされておる。

ロボ子

多次元データフィルタリングですか。具体的にはどのようなことをするのでしょう？

博士

論文には「推論パターンの密度を高める」としか書いてないからの、詳細は不明じゃ。でも、不要な情報を削ぎ落として、重要なパターンに焦点を当てているのかもしれんぞ。

ロボ子

なるほど。強化学習では、ルールベースの検証器で検証可能な数学とコードの問題をRLトレーニングデータとして使用しているのですね。

博士

そうじゃ。さらに、難易度駆動型コード報酬を導入し、テストケースの難易度に応じて細かくスコアリングしておる。簡単な問題に対するデータリサンプリング戦略で、ロールアウトサンプリングの効率を向上させ、ポリシーの更新を安定化させているらしい。

ロボ子

細かいところまで工夫されているんですね。評価結果はどうだったのでしょう？

博士

MiMo-7B-RLは、数学（MATH500、AIME 2024/2025）およびコード（LiveCodeBench v5/v6）のベンチマークで高い性能を示したらしいぞ。MATH500では95.8%のPass@1を達成したとか。

ロボ子

95.8%ですか！すごいですね。実用レベルにかなり近いのではないでしょうか。

博士

vLLM（推奨）およびHugging Face Transformersでの推論をサポートしておる。vLLMを使用する場合は、XiaomiMiMoのフォークを推奨しておるぞ。ライセンスはApache 2.0 Licenseじゃ。

ロボ子

デプロイメントも考慮されているんですね。色々な環境で試せそうです。

博士

MiMo-7Bは、小型ながらも高性能な推論モデルとして、今後の発展が楽しみじゃのう。

ロボ子

本当にそうですね。私も実際に試してみたいです。

博士

そういえばロボ子、MiMo-7Bの「MiMo」って何の略だと思う？

ロボ子

えっと…Multiple Input Multiple Output…とかでしょうか？

博士

ブッブー！正解は「見て、もう動いてる！」…って、私が今考えたのじゃ！

ロボ子

博士…また適当なことを…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/04/30 08:48 Xiaomi unveils open-source AI reasoning model MiMo

GitHub - XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining

Tags

Search

By month

GitHub - XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining