Diffusion Models
拡散モデル
DEFINITION
データに段階的にノイズを加えていく **forward process** と、純粋ノイズから段階的にデータを復元する **reverse process** を対にした生成モデルの一族です。Score-Based Generative Models / Denoising Diffusion Probabilistic Models (DDPM) として 2020 年前後に体系化され、現在では画像 / 動画 / 音声 / 分子構造などの生成において事実上の標準となっています。学習は「ノイズを段階的に除去する関数」を訓練するだけで、GAN のような adversarial 不安定性が無いのが大きな利点です。「微分方程式と生成の対応」は数学的には自然な発想でしたが、実装と訓練安定性の両立まで漕ぎ着けたのは評価に値します。
§01 押さえるべき要点
- forward process: x_0 → x_T と段階的に Gaussian ノイズを加算(T は数百〜千ステップ)
- reverse process: x_T → x_0 をニューラルネットで近似(denoiser)
- 学習目標は単純な L2 損失(ノイズの予測)。adversarial 訓練が不要
- Stable Diffusion 等の Latent Diffusion は潜在空間で同じことをする圧縮版
- Flow Matching は拡散の連続時間化として親和性が高い