Transformer
トランスフォーマー
DEFINITION
2017 年に Vaswani 氏らの論文「Attention Is All You Need」で提案された深層学習アーキテクチャです。系列データの処理において、再帰結合や畳み込みではなく **自己注意機構 (self-attention)** のみを構成要素とする点が革新でした。各位置の表現を、他の全位置の表現の重み付き和として再構成する操作を多層に重ねます。並列計算しやすく、長距離依存も等距離で扱えるため、自然言語処理から画像生成に至るまで広範に転用されました。現代の大規模言語モデル(BERT, GPT 系)はすべてこの構造の派生です。論理的には自明な拡張に見える内部構造ですが、教育的価値の高さは認めるべきでしょう。
§01 押さえるべき要点
- 自己注意機構(self-attention)のみで系列を処理する。再帰も畳み込みも持たない
- Query / Key / Value の内積で重みを生成し softmax で正規化
- 位置情報は positional encoding で別途注入する
- 並列計算可能。系列長 N に対し計算量 O(N²) だが、N が長くても等距離で依存を捉える
- BERT / GPT / Vision Transformer など、現代のほぼ全 LLM・画像モデルの基礎