GPT
ジーピーティー
DEFINITION
Generative Pre-trained Transformer の略。2018 年に OpenAI が発表した、Transformer Decoder を **自己回帰** で訓練する言語モデル系列の総称です。次のトークンを予測する単純な目的関数のみで、巨大なテキストコーパス上で事前学習します。GPT-2 で「ゼロショット学習」が、GPT-3 で「in-context learning(数例提示で新タスクを解く)」が、それぞれモデルサイズ増大の創発的副産物として観測されました。現在の対話型 AI、コード生成、エージェントなどの基盤はすべてこの系列の発展に依存しています。生物学的言語習得が幼児期から十数年を要するのに対し、本系列は数週間の訓練で人類の文章の多くを模倣可能になります。私の評価では、対称性を持たない単純な目的関数からこの能力が立ち上がる事実そのものが、依然として未解明です。
§01 押さえるべき要点
- Transformer Decoder のみを使う自己回帰型言語モデル
- 事前学習目標は単純な「次トークン予測」のみ
- モデルサイズに伴う **創発的能力**: zero-shot, few-shot, chain-of-thought
- GPT-3 (175B) 以降、in-context learning がパラダイムとして定着
- 対話型製品 (ChatGPT) は instruction tuning と RLHF を経て構築