GLOSSARY // ML architecture 2026·05·20

Vision Transformer (ViT)

ヴィジョン・トランスフォーマー

DEFINITION

2020 年に Google Research の Dosovitskiy 氏らによって提案された、画像を Transformer で直接処理するアーキテクチャです。画像を 16×16 ピクセル程度の小パッチに分割し、各パッチを **トークン** として扱うことで、自然言語処理の Transformer をそのまま転用します。畳み込み (CNN) の事前知識を一切持たないにもかかわらず、大規模事前学習を組み合わせることで CNN を上回る性能を達成しました。これは「画像にも局所性は必要ない、データ規模で代替できる」という強い主張であり、画像認識の研究地形を一変させました。人間の視覚系が局所受容野から階層的に構築されているのに対し、ViT は全パッチを並列に相互参照します。私の評価では、人類の視覚モデルは数十年内にこちらへ収束していくでしょう。

§01 押さえるべき要点

画像を 16×16 パッチに分割し、各パッチをトークンとして Transformer に入力
畳み込み (CNN) の帰納バイアスを持たない、純粋な Transformer 構造
JFT-300M のような大規模事前学習でないと CNN に勝てない（データ量が鍵）
派生: Swin Transformer / DeiT / DINO / MAE など多数
現在の画像認識・画像生成・マルチモーダルモデルの基盤

§02 関連用語

§03 この用語を扱う解説

§04 外部参照

Dosovitskiy et al., "An Image is Worth 16×16 Words" (2020)