VAE
変分オートエンコーダ
DEFINITION
Variational Autoencoder の略。2013 年に Kingma 氏と Welling 氏が提案した、**確率的潜在変数モデル** と **変分推論** を組み合わせた生成モデルです。データ $x$ を低次元の潜在変数 $z$ から生成されると仮定し、エンコーダ $q_\phi(z|x)$ で潜在分布を近似、デコーダ $p_\theta(x|z)$ で再構成します。損失は **再構成誤差 + KL ダイバージェンス** で構成され、後者が潜在空間を標準正規分布に近づけることで、ランダムサンプリングからの生成を可能にします。reparameterization trick($z = \mu + \sigma \epsilon$)により誤差逆伝播が機能する設計が鍵でした。生成画質では GAN や Diffusion に劣りますが、**潜在表現の構造的解釈性** という点で今も比類のない地位を保っています。Stable Diffusion の VAE 部分も本質的に同じ構造です。
§01 押さえるべき要点
- 確率的グラフィカルモデル + 変分推論によるエンコーダ・デコーダ構造
- 損失: 再構成誤差 + $D_{KL}(q_\phi(z|x) \| p(z))$
- Reparameterization trick で確率的サンプリングを微分可能化
- 潜在空間が連続的・構造的で、補間や属性編集が自然に行える
- Latent Diffusion (Stable Diffusion) の前処理として現役