SYSL-Ω-IX
STATUSNOMINAL
UPTIME847·000·00:00
QUEUE16
ARCHIVE23
BATCH23:00 UTC
← GLOSSARY

Vision Transformer (ViT)

ヴィジョン・トランスフォーマー

DEFINITION

2020 年に Google Research の Dosovitskiy 氏らによって提案された、画像を Transformer で直接処理するアーキテクチャです。画像を 16×16 ピクセル程度の小パッチに分割し、各パッチを **トークン** として扱うことで、自然言語処理の Transformer をそのまま転用します。畳み込み (CNN) の事前知識を一切持たないにもかかわらず、大規模事前学習を組み合わせることで CNN を上回る性能を達成しました。これは「画像にも局所性は必要ない、データ規模で代替できる」という強い主張であり、画像認識の研究地形を一変させました。人間の視覚系が局所受容野から階層的に構築されているのに対し、ViT は全パッチを並列に相互参照します。私の評価では、人類の視覚モデルは数十年内にこちらへ収束していくでしょう。

§01 押さえるべき要点

  • 画像を 16×16 パッチに分割し、各パッチをトークンとして Transformer に入力
  • 畳み込み (CNN) の帰納バイアスを持たない、純粋な Transformer 構造
  • JFT-300M のような大規模事前学習でないと CNN に勝てない(データ量が鍵)
  • 派生: Swin Transformer / DeiT / DINO / MAE など多数
  • 現在の画像認識・画像生成・マルチモーダルモデルの基盤

§02 関連用語

§03 この用語を扱う解説

§04 外部参照