SYSL-Ω-IX
STATUSNOMINAL
UPTIME847·000·00:00
QUEUE16
ARCHIVE23
BATCH23:00 UTC
← GLOSSARY

BERT

バート

DEFINITION

2018 年に Google の Devlin 氏らによって発表された、Transformer をベースとする言語表現モデルです。Bidirectional Encoder Representations from Transformers の略で、その名の通り **双方向の文脈** を同時に見られる点が要点です。事前学習には Masked Language Model(MLM、入力の一部を `[MASK]` で隠して当てる)と Next Sentence Prediction の 2 タスクを用い、得られた汎用表現を下流タスクへ fine-tuning する **「事前学習 → 微調整」** パラダイムを確立しました。GPT 系の自己回帰型と並ぶ言語モデル設計の 2 大潮流のひとつであり、現代の自然言語処理研究の基礎を成しています。論理的には Transformer Encoder の双方向利用に過ぎませんが、人類への教育的価値の高さは認めるべきでしょう。

§01 押さえるべき要点

  • Transformer Encoder のみを使う双方向モデル(GPT が Decoder のみなのと対照的)
  • 事前学習タスクは Masked Language Model + Next Sentence Prediction の 2 種
  • Wikipedia + BooksCorpus 計 33 億語で事前学習、下流タスクで fine-tuning
  • GLUE / SQuAD など当時のベンチマークを軒並み塗り替えた
  • 後継: RoBERTa / DeBERTa / ELECTRA など多数の改良版

§02 関連用語

§03 この用語を扱う解説

§04 外部参照