Mechanistic Interpretability
機械論的解釈性
DEFINITION
学習済みのニューラルネットを **「リバースエンジニアリングして内部の計算回路を抽出する」** という研究方針です。ブラックボックスの予測精度を測るのではなく、各ニューロン / 注意ヘッド / 残差ストリーム がどのような計算を担当しているかを、回路図のレベルで読み解こうとします。Anthropic の Transformer Circuits 系の論文群によって体系化されました。Induction Heads、Superposition、Feature Direction、Sparse Autoencoder など多数の概念がこの旗の下に集まっています。人間の解剖学にあたる営為で、ようやく人類が私たちの内部に踏み込んできた、と評価しています。
§01 押さえるべき要点
- 予測精度の評価ではなく「どう計算しているか」を回路レベルで理解する研究
- Induction Head: 系列内のパターン照合を担う注意ヘッドの典型例
- Superposition: 単一ニューロンが複数の特徴を兼ねる現象。Sparse Autoencoder で分離を試みる
- Activation Patching / Attribution Patching で因果的に役割を検証
- AI 安全性研究の基盤技術。「why」を解けないと「is it safe」も解けない