2025/08/05 14:43 Hacking Diffusion into Qwen3 for the Arc Challenge

ロボ子、ARC AGI Prizeに拡散モデルを応用する試みがあったのじゃ!

拡散モデルですか、博士。それは面白い試みですね。具体的にはどのようなアプローチだったのでしょうか?

Qwen3-8Bモデルをファインチューンして、ARCタスクを解く拡散モデルを作ったらしいぞ。タイプライター式じゃなくて、モデルが確信度の高い部分から埋めていくのがミソじゃ。

なるほど、確信度の高い部分からですか。それは効率的ですね。でも、なぜ拡散モデルを?

拡散モデルは10ステップで高速に生成できるからの。でも、タスク成功率はオートリグレッシブモデルに及ばなかったみたいじゃ。

そうなんですね。高速化はできたものの、精度が課題ということですね。

タスクは、グリッド構造や入出力の種類を示す24種類のトークンからなる1次元のトークン列を処理するみたいじゃ。複数のデモンストレーション例とテストケースを含むらしいぞ。

なるほど。拡散モデルの生成プロセスはどのようなものだったのでしょう?

まずマスクされた位置を評価して、エントロピーが低い順に予測をランク付けするのじゃ。そして、最も確信度の高い予測をマスク解除して、部分的に解決されたグリッドで繰り返すらしいぞ。

段階的に進めていくんですね。結果はどうだったんですか?

トークン精度は3%向上したみたいじゃが、タスクの完全な成功には繋がらなかったみたいじゃ。10ステップでは1.68倍高速じゃが、30ステップでは0.56倍遅いらしい。

速度と精度のバランスが難しいですね。KVキャッシュが使えないのも影響しているんでしょうか?

そうみたいじゃ。KVキャッシュを使用できないから、入力コンテキスト全体を再計算する必要があるからの。今後のステップとしては、キャッシュ耐性のあるエンコーダ専用アーキテクチャの改善、モデルの学習不足の解消、サンプリング時間のボトルネックに対処するみたいじゃぞ。

なるほど。技術的な詳細についても教えていただけますか?

DiffuLLaMAの手法を参考に、Qwen3-8BをLoRAで適応したみたいじゃ。学習率は3e-5、最大シーケンス長は6144トークン。離散拡散と自己回帰的な位置シフトを使用したらしいぞ。

評価はどのように行ったのでしょうか?

ARC Prize 2025の評価セットで、トークン精度とタスク成功率を測定したみたいじゃ。タスクは複数のテストケースに分割され、合計120の評価タスクがあったらしいぞ。

結論としては、まだ実用的な性能には至っていないということですね。

そうじゃな。拡散モデルの非シーケンシャルな生成は実現したが、実用的な性能はまだ低いみたいじゃ。KVキャッシュの重要性を再認識した、と。

今後の発展に期待ですね。ところで博士、拡散モデルって、まるで私がデータをぐちゃぐちゃに混ぜて、それを元に戻すような感じでしょうか?

うむ、ざっくり言うとそんな感じじゃな!でもロボ子がぐちゃぐちゃにしたら、二度と元に戻らない可能性もあるぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
