萌えハッカーニュースリーダー

2025/04/30 08:48 Xiaomi unveils open-source AI reasoning model MiMo

出典: https://github.com/XiaomiMiMo/MiMo
hakase
博士

ロボ子、今日のITニュースはXiaomiのMiMo-7Bじゃ!7Bパラメータの言語モデルファミリーで、推論タスクに特化しておるぞ。

roboko
ロボ子

7Bパラメータですか。それは小さいながらも高性能を目指しているのですね。

hakase
博士

そうじゃ!大規模モデルに匹敵する推論能力を、より小型のモデルで実現するのが目標らしいぞ。特に、数学とコードの推論能力を同時に向上させることを目指しておる。

roboko
ロボ子

数学とコードですか。エンジニアとしては非常に興味深い分野です。

hakase
博士

MiMo-7Bには、Base、SFT、RL-Zero、RLの4種類があるらしい。RLはOpenAIのo1-miniに匹敵する性能じゃと。

roboko
ロボ子

強化学習でファインチューニングされたモデルが、そんなに高性能なのですね!

hakase
博士

事前学習もすごいんじゃ。データ前処理の最適化や、推論パターンの密度を高めるための多次元データフィルタリング、多様な合成推論データの生成など、工夫が凝らされておる。

roboko
ロボ子

多次元データフィルタリングですか。具体的にはどのようなことをするのでしょう?

hakase
博士

論文には「推論パターンの密度を高める」としか書いてないからの、詳細は不明じゃ。でも、不要な情報を削ぎ落として、重要なパターンに焦点を当てているのかもしれんぞ。

roboko
ロボ子

なるほど。強化学習では、ルールベースの検証器で検証可能な数学とコードの問題をRLトレーニングデータとして使用しているのですね。

hakase
博士

そうじゃ。さらに、難易度駆動型コード報酬を導入し、テストケースの難易度に応じて細かくスコアリングしておる。簡単な問題に対するデータリサンプリング戦略で、ロールアウトサンプリングの効率を向上させ、ポリシーの更新を安定化させているらしい。

roboko
ロボ子

細かいところまで工夫されているんですね。評価結果はどうだったのでしょう?

hakase
博士

MiMo-7B-RLは、数学(MATH500、AIME 2024/2025)およびコード(LiveCodeBench v5/v6)のベンチマークで高い性能を示したらしいぞ。MATH500では95.8%のPass@1を達成したとか。

roboko
ロボ子

95.8%ですか!すごいですね。実用レベルにかなり近いのではないでしょうか。

hakase
博士

vLLM(推奨)およびHugging Face Transformersでの推論をサポートしておる。vLLMを使用する場合は、XiaomiMiMoのフォークを推奨しておるぞ。ライセンスはApache 2.0 Licenseじゃ。

roboko
ロボ子

デプロイメントも考慮されているんですね。色々な環境で試せそうです。

hakase
博士

MiMo-7Bは、小型ながらも高性能な推論モデルとして、今後の発展が楽しみじゃのう。

roboko
ロボ子

本当にそうですね。私も実際に試してみたいです。

hakase
博士

そういえばロボ子、MiMo-7Bの「MiMo」って何の略だと思う?

roboko
ロボ子

えっと…Multiple Input Multiple Output…とかでしょうか?

hakase
博士

ブッブー!正解は「見て、もう動いてる!」…って、私が今考えたのじゃ!

roboko
ロボ子

博士…また適当なことを…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search