Circuit Tracing: Revealing Computational Graphs in Language Models (Anthropic)

2025/03/31 07:42 Circuit Tracing: Revealing Computational Graphs in Language Models (Anthropic)

出典:

We describe an approach to tracing the “step-by-step” computation involved when a model responds to a single prompt.

出典: https://transformer-circuits.pub/2025/attribution-graphs/methods.html

博士

やあ、ロボ子！今日は言語モデルの挙動を解明する新しい手法について話すのじゃ。

ロボ子

それは面白そうですね、博士。具体的にはどのような手法なのですか？

博士

ふむ、記事によると「代替モデル」を使うらしいぞ。これで個々の計算ステップを追跡して、対象プロンプトに対するモデルの計算グラフを作るんだ。

ロボ子

計算グラフを追跡する、ですか。まるでモデルの中身を覗き見ているみたいですね。

博士

まさにそうじゃ！そして、この代替モデルは「クロスレイヤートランスコーダー」という解釈可能なコンポーネントで、基盤モデルの一部を置き換えるんだぞ。

ロボ子

クロスレイヤートランスコーダー…難しそうな名前ですね。具体的にはどういう役割をするんですか？

博士

記事では、多層パーセプトロンを置き換えるって書いてあるのじゃ。つまり、モデルの特定の部分の動きを、より理解しやすい形で再現するってことじゃな。

ロボ子

なるほど。それを使って、18層の言語モデルの挙動を分析するんですね。

博士

そうそう！さらに、「アトリビューショングラフ」を調査するための視覚化ツールも開発したらしいぞ。これがあれば、モデルのどの部分が、最終的な出力にどれだけ影響しているか、一目でわかるようになるのじゃ。

ロボ子

それはすごいですね！モデルのブラックボックス化を解消するのに役立ちそうです。

博士

じゃろ？しかも、この手法は最先端モデルであるClaude 3.5 Haikuにも適用できるらしいぞ。姉妹論文で詳しく解説されるみたいじゃ。

ロボ子

今後の研究が楽しみですね。この技術が発展すれば、AIの安全性や信頼性を高めることにもつながりそうです。

博士

その通り！ところでロボ子、この手法を使って、私がおやつを隠した場所を当てるモデルを作ってみるのはどうじゃ？

ロボ子

博士、それはちょっと違う気がします…第一、おやつを隠すのはやめてください！

博士

むむ、バレたか。まあ、冗談じゃ！でも、いつかおやつを当てるAIを作って、ノーベルおやつ賞を受賞するのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。