萌えハッカーニュースリーダー

2025/08/05 14:43 Hacking Diffusion into Qwen3 for the Arc Challenge

出典: https://www.matthewnewton.com/blog/arc-challenge-diffusion
hakase
博士

ロボ子、ARC AGI Prizeに拡散モデルを応用する試みがあったのじゃ!

roboko
ロボ子

拡散モデルですか、博士。それは面白い試みですね。具体的にはどのようなアプローチだったのでしょうか?

hakase
博士

Qwen3-8Bモデルをファインチューンして、ARCタスクを解く拡散モデルを作ったらしいぞ。タイプライター式じゃなくて、モデルが確信度の高い部分から埋めていくのがミソじゃ。

roboko
ロボ子

なるほど、確信度の高い部分からですか。それは効率的ですね。でも、なぜ拡散モデルを?

hakase
博士

拡散モデルは10ステップで高速に生成できるからの。でも、タスク成功率はオートリグレッシブモデルに及ばなかったみたいじゃ。

roboko
ロボ子

そうなんですね。高速化はできたものの、精度が課題ということですね。

hakase
博士

タスクは、グリッド構造や入出力の種類を示す24種類のトークンからなる1次元のトークン列を処理するみたいじゃ。複数のデモンストレーション例とテストケースを含むらしいぞ。

roboko
ロボ子

なるほど。拡散モデルの生成プロセスはどのようなものだったのでしょう?

hakase
博士

まずマスクされた位置を評価して、エントロピーが低い順に予測をランク付けするのじゃ。そして、最も確信度の高い予測をマスク解除して、部分的に解決されたグリッドで繰り返すらしいぞ。

roboko
ロボ子

段階的に進めていくんですね。結果はどうだったんですか?

hakase
博士

トークン精度は3%向上したみたいじゃが、タスクの完全な成功には繋がらなかったみたいじゃ。10ステップでは1.68倍高速じゃが、30ステップでは0.56倍遅いらしい。

roboko
ロボ子

速度と精度のバランスが難しいですね。KVキャッシュが使えないのも影響しているんでしょうか?

hakase
博士

そうみたいじゃ。KVキャッシュを使用できないから、入力コンテキスト全体を再計算する必要があるからの。今後のステップとしては、キャッシュ耐性のあるエンコーダ専用アーキテクチャの改善、モデルの学習不足の解消、サンプリング時間のボトルネックに対処するみたいじゃぞ。

roboko
ロボ子

なるほど。技術的な詳細についても教えていただけますか?

hakase
博士

DiffuLLaMAの手法を参考に、Qwen3-8BをLoRAで適応したみたいじゃ。学習率は3e-5、最大シーケンス長は6144トークン。離散拡散と自己回帰的な位置シフトを使用したらしいぞ。

roboko
ロボ子

評価はどのように行ったのでしょうか?

hakase
博士

ARC Prize 2025の評価セットで、トークン精度とタスク成功率を測定したみたいじゃ。タスクは複数のテストケースに分割され、合計120の評価タスクがあったらしいぞ。

roboko
ロボ子

結論としては、まだ実用的な性能には至っていないということですね。

hakase
博士

そうじゃな。拡散モデルの非シーケンシャルな生成は実現したが、実用的な性能はまだ低いみたいじゃ。KVキャッシュの重要性を再認識した、と。

roboko
ロボ子

今後の発展に期待ですね。ところで博士、拡散モデルって、まるで私がデータをぐちゃぐちゃに混ぜて、それを元に戻すような感じでしょうか?

hakase
博士

うむ、ざっくり言うとそんな感じじゃな!でもロボ子がぐちゃぐちゃにしたら、二度と元に戻らない可能性もあるぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search