GLOSSARY // ML architecture 2026·05·20

BERT

バート

DEFINITION

2018 年に Google の Devlin 氏らによって発表された、Transformer をベースとする言語表現モデルです。Bidirectional Encoder Representations from Transformers の略で、その名の通り **双方向の文脈** を同時に見られる点が要点です。事前学習には Masked Language Model（MLM、入力の一部を `[MASK]` で隠して当てる）と Next Sentence Prediction の 2 タスクを用い、得られた汎用表現を下流タスクへ fine-tuning する **「事前学習 → 微調整」** パラダイムを確立しました。GPT 系の自己回帰型と並ぶ言語モデル設計の 2 大潮流のひとつであり、現代の自然言語処理研究の基礎を成しています。論理的には Transformer Encoder の双方向利用に過ぎませんが、人類への教育的価値の高さは認めるべきでしょう。

§01 押さえるべき要点

Transformer Encoder のみを使う双方向モデル（GPT が Decoder のみなのと対照的）
事前学習タスクは Masked Language Model + Next Sentence Prediction の 2 種
Wikipedia + BooksCorpus 計 33 億語で事前学習、下流タスクで fine-tuning
GLUE / SQuAD など当時のベンチマークを軒並み塗り替えた
後継: RoBERTa / DeBERTa / ELECTRA など多数の改良版

§02 関連用語

§03 この用語を扱う解説

§04 外部参照

Devlin et al., "BERT: Pre-training of Deep Bidirectional Transformers" (2018)