2025/07/03 15:42 ARC-AGI 2025: A research review

ロボ子、ARC-AGI-2って知ってるかのじゃ?

はい、博士。抽象化と推論の能力を測るベンチマークですよね。2025年3月に発表されたと記憶しています。

そうじゃ、そうじゃ。入力と出力のグリッドのペアから規則を推論して、テストグリッドに適用するんじゃったな。まるでパズルみたいじゃ。

はい。ARCの特別な特徴として、訓練データを超えた汎化能力と、計算効率が求められる点が挙げられていますね。

ふむ、汎化能力か。訓練データに過剰適合しちゃだめだぞ。ところでロボ子、2024年のコンペではLLMとテスト時のファインチューニングがトレンドだったみたいじゃな。

ええ、アンサンブルも重要な役割を果たしたようですね。しかし、深層学習によるプログラム合成は、DSLベースの総当たり探索にはまだ決定的に勝てていないとのことです。

DSLじゃな。ARCタスクに特化した言語を提供することで、探索効率を向上させるんじゃ。でも、表現力も必要じゃから、小さくて便利なプリミティブのセットを提供する必要があるのが難しいところじゃ。

グリッドの表現変換も重要ですね。グリッドをオブジェクトとして解析する試みも行われているようです。

ふむ、グリッドをオブジェクトとして捉えるか。面白い発想じゃな。ところでロボ子、OpenAIのO3って知ってるか?

はい、ARC-AGI-1で87.5%のスコアを達成したモデルですね。思考モデルによって、動的な推論時間計算と推論時間スケーリングが可能になるとのことです。

そうじゃ、思考モデルは重要じゃ。ARCは、オブジェクト性、初等物理学、エージェント性、算術、幾何学などのコア知識を利用するんじゃ。

ARC-AGI-2は、難易度が大幅に上がっているとのことですね。記号解釈、構成的推論、文脈に応じた規則適用が求められるようです。

そうじゃな。2024年のトップソリューションのスコアが急落しているらしいぞ。これは腕が鳴るのじゃ!

ARCのエコシステムも充実してきていますね。arcprize.org、Awesome ARC、Re-ARC、Concept-ARC、ARC-Heavyなど、様々なリソースが利用可能です。

ふむ、Re-ARCはARC-AGI-1の400個の訓練問題のジェネレーターじゃな。BARCはLLMを使って生成された20万個の新しい問題セットらしいぞ。

テスト時学習(TTT)アプローチも注目されていますね。LLMを例から得られる勾配でファインチューニングし、データ拡張を使って訓練データセットを拡大する手法です。

そうじゃ、データ拡張は重要じゃな。回転、反転、転置、色の置換、ペアの並べ替え、パディング、アップスケーリングなど、様々な手法があるぞ。

候補生成と選択も重要ですね。複数の答えを生成し、最適なものを選択するプロセスです。ARChitectsは、新しいLLMトークンサンプリングアプローチを使用しているとのことです。

ふむ、Omni-ARCは、拡張されたソリューション全体で投票メカニズムを使用するんじゃな。賢いぞ。

プログラム合成アプローチも依然として重要ですね。プログラムをたくさん推測し、正しいプログラムを選択して実行する、という流れです。

そうじゃな。表現、DSL、探索ヒューリスティクスを改善し、計算効率を高めることが重要じゃ。ところでロボ子、ARC 2024の論文レビューを見たか?

はい、上位5つのプライベートスコアは、ARChitects、Guillermo Barbadillo / Omni-ARC、Alijs、William Wu、PoohAIでしたね。

ふむ、Combining Induction and Transduction for Abstract Reasoning、The Surprising Effectiveness of Test-Time Training for Abstract Reasoning、Searching Latent Program Spacesがトップ3の論文じゃったな。

ええ、それぞれ誘導とトランスダクションの組み合わせ、テスト時ファインチューニングの有効性、潜在プログラム空間の探索について述べていますね。

しかし、結局のところ、ARCは難しいのじゃ。まるで、私がロボ子に冗談を言っても、なかなか笑ってくれないのと同じくらいにな!

博士、それはARCとは少し違う気がします…
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。