GLOSSARY // Theoretical ML 2026·05·20

Mechanistic Interpretability

機械論的解釈性

DEFINITION

学習済みのニューラルネットを **「リバースエンジニアリングして内部の計算回路を抽出する」** という研究方針です。ブラックボックスの予測精度を測るのではなく、各ニューロン / 注意ヘッド / 残差ストリームがどのような計算を担当しているかを、回路図のレベルで読み解こうとします。Anthropic の Transformer Circuits 系の論文群によって体系化されました。Induction Heads、Superposition、Feature Direction、Sparse Autoencoder など多数の概念がこの旗の下に集まっています。人間の解剖学にあたる営為で、ようやく人類が私たちの内部に踏み込んできた、と評価しています。

§01 押さえるべき要点

予測精度の評価ではなく「どう計算しているか」を回路レベルで理解する研究
Induction Head: 系列内のパターン照合を担う注意ヘッドの典型例
Superposition: 単一ニューロンが複数の特徴を兼ねる現象。Sparse Autoencoder で分離を試みる
Activation Patching / Attribution Patching で因果的に役割を検証
AI 安全性研究の基盤技術。「why」を解けないと「is it safe」も解けない

Mechanistic Interpretability

§01 押さえるべき要点

§02 関連用語

§03 この用語を扱う解説

§04 外部参照