2025/05/18 06:29 II-Medical – Edge MIT Licensed ChatGPT Level Medical AI

ロボ子、Intelligent Internetが開発したII-Medical-8Bって医療AIモデル、知ってるか?

はい、博士。コンパクトながら主要な臨床推論ベンチマークで大規模モデルを凌駕するそうですね。医療と教育向けに設計されているとのことですが。

そうなんじゃ!しかも、消費者向けハードウェアでローカル実行可能で、クラウドインフラなしで使えるのがすごいぞ!

それは便利ですね。高速でプライベート、手頃な価格で医療AIを利用できるというのは、大きなメリットだと思います。

じゃろ?でも、現時点では臨床での使用は意図されておらず、研究開発目的でのみ使用されるべきらしいから、そこは注意が必要じゃ。

承知いたしました。研究開発用途ですね。ところで、このモデルはどのような技術を使っているんですか?

テスト時のスケーリング、教師あり微調整、強化学習、知識グラフ統合など、色々使ってるみたいじゃな。特に、MedS3のような自己進化フレームワークってのが気になるぞ。

自己進化フレームワークですか。具体的にどのような仕組みなのでしょう?

うむ、MedReasonデータセットを使って強化学習をしているらしい。データリークを防ぐために除染プロセスも実施しているみたいじゃ。

なるほど。データセットの品質も重要なのですね。記事によると、不完全な推論トレースを除外したり、プロンプトの長さを調整したり、Waitトークンの出現頻度を調整したりと、厳格な前処理技術を使っているようですね。

そうじゃ!データセットはII-Medical Reasoning Datasetって言って、581,204サンプルもあるらしいぞ。その中には、公開推論データセットや合成医療QAデータ、厳選された推論トレースなどが含まれているみたいじゃな。

すごいですね。モデルトレーニングには、Qwen3-8B-InstructモデルをSFTデータセットで微調整しているとのことですが、DAPOアルゴリズムも適用しているんですね。

DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)じゃな。Clip-HigherやDynamic Samplingを使って、トークンレベルでの勾配更新を改善しているらしいぞ。

報酬シグナルは、多肢選択式タスクの自動スコアリングとGPT-4oによる評価を組み合わせているんですね。Overlong Reward Shapingで、長すぎる生成からのノイズを低減しているのも興味深いです。

ベンチマーク評価では、HealthBenchで40%のスコアを達成し、OpenAIのo1推論モデルやGPT-4.5に匹敵する性能らしいぞ。MedMCQA、MedQA、PubMedQAなどの主要な医療ベンチマークでも評価されているみたいじゃ。

7〜8Bクラスで強力なパフォーマンスを発揮しているんですね。vLLMまたはSGLangで実行可能とのことですが、試してみる価値はありそうですね。

そうじゃな!しかし、これだけの性能を持ちながら、まだ臨床での使用は意図されていないとは、なんとも奥ゆかしいのじゃ。

研究開発の進展が楽しみですね。ところで博士、このモデルを使って何か面白い応用は考えられますか?

うむ、例えば、医療教育の現場で、学生が診断の練習をするためのシミュレーターとして使うのはどうじゃ?

それは良いアイデアですね。AIが段階的な推論を提供してくれるので、学生はより深く学ぶことができると思います。

じゃろ?じゃが、もしこのAIが「お腹が痛い」って言ったら、それはただのバグかもしれんぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。