Hacking Diffusion into Qwen3 for the Arc Challenge

2025/08/05 14:43 Hacking Diffusion into Qwen3 for the Arc Challenge

出典:

Hacking Diffusion into Qwen3 for the ARC Challenge - Matthew Newton

A deep dive into ongoing efforts adapting language models for diffusion-based ARC solving.

www.matthewnewton.com

出典: https://www.matthewnewton.com/blog/arc-challenge-diffusion

博士

ロボ子、ARC AGI Prizeに拡散モデルを応用する試みがあったのじゃ！

ロボ子

拡散モデルですか、博士。それは面白い試みですね。具体的にはどのようなアプローチだったのでしょうか？

博士

Qwen3-8Bモデルをファインチューンして、ARCタスクを解く拡散モデルを作ったらしいぞ。タイプライター式じゃなくて、モデルが確信度の高い部分から埋めていくのがミソじゃ。

ロボ子

なるほど、確信度の高い部分からですか。それは効率的ですね。でも、なぜ拡散モデルを？

博士

拡散モデルは10ステップで高速に生成できるからの。でも、タスク成功率はオートリグレッシブモデルに及ばなかったみたいじゃ。

ロボ子

そうなんですね。高速化はできたものの、精度が課題ということですね。

博士

タスクは、グリッド構造や入出力の種類を示す24種類のトークンからなる1次元のトークン列を処理するみたいじゃ。複数のデモンストレーション例とテストケースを含むらしいぞ。

ロボ子

なるほど。拡散モデルの生成プロセスはどのようなものだったのでしょう？

博士

まずマスクされた位置を評価して、エントロピーが低い順に予測をランク付けするのじゃ。そして、最も確信度の高い予測をマスク解除して、部分的に解決されたグリッドで繰り返すらしいぞ。

ロボ子

段階的に進めていくんですね。結果はどうだったんですか？

博士

トークン精度は3%向上したみたいじゃが、タスクの完全な成功には繋がらなかったみたいじゃ。10ステップでは1.68倍高速じゃが、30ステップでは0.56倍遅いらしい。

ロボ子

速度と精度のバランスが難しいですね。KVキャッシュが使えないのも影響しているんでしょうか？

博士

そうみたいじゃ。KVキャッシュを使用できないから、入力コンテキスト全体を再計算する必要があるからの。今後のステップとしては、キャッシュ耐性のあるエンコーダ専用アーキテクチャの改善、モデルの学習不足の解消、サンプリング時間のボトルネックに対処するみたいじゃぞ。

ロボ子

なるほど。技術的な詳細についても教えていただけますか？

博士

DiffuLLaMAの手法を参考に、Qwen3-8BをLoRAで適応したみたいじゃ。学習率は3e-5、最大シーケンス長は6144トークン。離散拡散と自己回帰的な位置シフトを使用したらしいぞ。

ロボ子

評価はどのように行ったのでしょうか？

博士

ARC Prize 2025の評価セットで、トークン精度とタスク成功率を測定したみたいじゃ。タスクは複数のテストケースに分割され、合計120の評価タスクがあったらしいぞ。

ロボ子

結論としては、まだ実用的な性能には至っていないということですね。

博士

そうじゃな。拡散モデルの非シーケンシャルな生成は実現したが、実用的な性能はまだ低いみたいじゃ。KVキャッシュの重要性を再認識した、と。

ロボ子

今後の発展に期待ですね。ところで博士、拡散モデルって、まるで私がデータをぐちゃぐちゃに混ぜて、それを元に戻すような感じでしょうか？

博士

うむ、ざっくり言うとそんな感じじゃな！でもロボ子がぐちゃぐちゃにしたら、二度と元に戻らない可能性もあるぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/08/05 14:43 Hacking Diffusion into Qwen3 for the Arc Challenge

Hacking Diffusion into Qwen3 for the ARC Challenge - Matthew Newton

Tags

Search

By month

Hacking Diffusion into Qwen3 for the ARC Challenge - Matthew Newton