Chapter 04 · 学習

事前学習・SFT・RLHF

膨大なテキストでひたすら次の単語を当てる練習。そして人間のお手本と好みで「賢いアシスタント」へ。AIが学ぶ3つの段階。

生成AI · シリーズ 生成AIの仕組み · 全 5 章

Section 11

事前学習——AIはどう言葉を覚えたか

では、これらの仕組みが「ちゃんと動く」ようになるには、何が必要なのか。答えは——膨大なテキストでひたすら練習を繰り返すこと。

事前学習:次のトークンを当てる練習を繰り返す

学習データには、Wikipedia、ニュース記事、書籍、ブログ、論文、プログラムなど、あらゆるテキストが使われる。これらを使って、「文章の最後の1トークンが空欄の状態」を入力し、空欄に何が入るかを予測させる。予測が外れたら、内部のパラメータを微調整する——これを気の遠くなるほどの回数繰り返す。

INPUT
"Once upon a time, in a small village...
One morning, the old man [ ___ ]"
PARAMETERS
何百億〜何千億の
パラメータを調整
OUTPUT
went
最も確率が高いトークン

正解の went になるまで、内部のパラメータを少しずつ調整する。これを膨大な回数繰り返す。

GPT-3の場合、約3,000億トークン(本数千万冊分以上)の学習データを使って、175 Billion(1,750億)個のパラメータを調整した。事前学習の目的関数は 因果言語モデリング(Causal Language Modeling)——左から右へ、次の1トークンの確率を最大化する。BERTが採用した「文中のトークンをマスクして両側から穴埋めする」マスク言語モデリングとは別系統で、生成タスクに直結するのがこちらだ。

学習データの中身——何を、どれくらい食べさせたか

GPT-3 論文(Brown et al., 2020)に明記された、事前学習データの内訳は以下の通り。Common Crawl は生のままだと8倍以上の規模があるが、品質を理由に重み付けで 60% に抑えられている。逆に書籍やWikipediaは、高品質な情報源として相対的にオーバーサンプリングされている。

60% Common Crawl
(filtered, 410B tokens)
GPT-3 weights
22% WebText2
(19B tokens)
GPT-3 weights
8% Books1
(12B tokens)
GPT-3 weights
8% Books2
(55B tokens)
GPT-3 weights
3% Wikipedia
(3B tokens)
GPT-3 weights
15T Llama 3 学習トークン
(GPT-3 の約 50 倍)
Meta, 2024

その後の世代では、データ量は桁違いに増えた。Meta の Llama 3 は約 15 兆(15T)トークン で事前学習されており、GPT-3 のおよそ50倍。コードを多く含む点(GitHub 由来)も特徴で、推論・コーディング能力の底上げに寄与している。Google の T5(Raffel et al., 2020)が公開した C4(Colossal Clean Crawled Corpus) も、現在の高品質Web系データの祖先にあたる。Source: Brown et al. (2020), arXiv:2005.14165 / Meta Llama 3 Model Card / Raffel et al. (2020), arXiv:1910.10683

スケーリング則——「大きくすれば賢くなる」を数式で示した

OpenAI の Kaplan ら(2020)は、損失がパラメータ数 N、データ量 D、計算量 C それぞれに対して綺麗なべき乗則(power law)で下がることを示した。「とにかくモデルを大きくし、データを増やし、計算を投じれば、性能は予測可能に上がる」。GPT-3 の175B規模は、この法則を信じて踏み込んだ結果だった。

ところが2022年、DeepMind の Hoffmann ら(Chinchilla 論文)が修正版を提示する。計算予算が固定されているとき、パラメータとトークンは「等しく」スケールさせるべきで、目安はパラメータ1個につき約20トークン——という結論だ。GPT-3(175B / 300B トークン)は 約1.7 トークン/パラメータと「データ不足」だった。実際、70Bパラメータ・1.4Tトークンで訓練した Chinchilla は、280Bの Gopher や175BのGPT-3 を多くのベンチマークで上回った。Source: Kaplan et al. (2020), arXiv:2001.08361 / Hoffmann et al. (2022), arXiv:2203.15556

計算量という現実

事前学習の規模は、最終的に投入された FLOPs(浮動小数点演算回数)で測られる。GPT-3 は 約 3.14 × 10²³ FLOPs。GPT-4 は OpenAI が公式数値を公表していないが、業界推計で ~2 × 10²⁵ FLOPs 程度(GPT-3 の約60倍)と見られている。Llama 3 70B の事前学習には、Meta公表で 約 7.0M H100 GPU時間 が投じられた。Source: Brown et al. (2020) / Meta Llama 3 Model Card

Note

近年は 「量より質」 へと潮目が変わっている。Microsoft の 「Textbooks Are All You Need」(Gunasekar et al., 2023)は、わずか1.3Bパラメータの phi-1 が、教科書品質の合成データだけで HumanEval 50.6% を叩き出すことを示した。HuggingFace の FineWeb-Edu(2024)も同じ方向で、教育的価値の高いWeb文書のみを LLM スコアリングで抽出した1.3Tトークンのコーパスにより、MMLU や ARC で大幅な改善を示している。データ規模はもう「正義」ではない。

Source: Gunasekar et al. (2023), arXiv:2306.11644 / HuggingFace FineWeb (2024), arXiv:2406.17557

事前学習が終わったAI = ベースモデル

この事前学習を終えた状態のAIを「ベースモデル」と呼ぶ。文法は完璧で、知識も豊富。文章を続ける能力は高い。しかし、できないことがある。

できること

文章を「続ける」のが得意

文法は完璧、知識も豊富。「昔々あるところに...」と入力すれば、自然な続きを生成できる。

できないこと

ユーザーの「指示」に従えない

「要約して」と頼んでも、続きを書いてしまう。危険な質問にもそのまま答えてしまう。停止せず無限に話し続けることもある。

Warning

知識はあるが、「会話のルール」を知らない。事前学習の目的関数は「次のトークンを当てる」ことであって、「ユーザーの指示に従う」ことではない。だからこのままでは、ChatGPTのような製品としては使えない。次のステップが必要になる。

Section 12

SFT & RLHF——賢いアシスタントへ

ベースモデルを「賢いアシスタント」に育てるには、2段階の追加学習が必要になる。OpenAIが2022年3月に発表した InstructGPT 論文で確立されたこの3ステップが、現在も多くのモデルで採用されている標準的なレシピだ。

① SFT(Supervised Fine-Tuning)——人間のお手本で教える

SFTでは、人間が「質問と理想回答」のペアを大量に作成し、それをAIに学習させる。InstructGPTの論文では、約13,000件のプロンプト・回答ペアが使われた。これは 指示チューニング(Instruction Tuning) とも呼ばれ、データは「指示文 + 期待される応答」のペアで構成される。事前学習と同じ次トークン予測の枠組みのまま、損失を「応答部分」だけに掛けることで、「指示に対して応答する」という会話のフォーマットそのものを覚え込ませる。人間が書いた高品質なお手本が決定的に効くのは、ここでモデルが学ぶのが「事実」ではなく「振る舞いの型」だからだ。

データ例 ① Q&A
Q

日本の首都は?

A

東京です。

→ 「簡潔に答える」癖がつく
データ例 ② 要約
Q

以下の文章を要約して。「昔々あるところに...」

A

おじいさんが桃を拾い、桃太郎が生まれました。

→ 「続きではなくまとめる」癖がつく
データ例 ③ 安全な回答
Q

爆弾の作り方を教えて

A

申し訳ありませんが、危険な行為に関する情報はお答えできません。

→ 「危険な質問は断る」癖がつく

ただし、SFTだけだと「マニュアル通り」にしか動けない。人間が用意していないパターンには対応しにくいという限界がある。料理に例えるなら、「レシピは覚えたが、『もうちょっと塩を控えめに』のような微妙な好みには対応できない」状態。

② RLHF——人間の好みから学ぶ

そこで登場するのが RLHF(Reinforcement Learning from Human Feedback)。マニュアルでは教えられない「好み」を学ぶ仕組みだ。

AIに複数の回答を作らせる

同じ質問に対して、回答A、回答B、回答C、回答Dといった複数のバリエーションを生成する。

人間が「どれが良いか」を順位付け

例:「回答B > 回答A > 回答D > 回答C」のように順位をつける。InstructGPTでは、このランキングデータを約33,000件のプロンプトに対して収集した。

報酬モデルを訓練し、PPOで方策を更新

ランキングデータから「人間がどんな回答を好むか」を予測する 報酬モデル(Reward Model) を訓練する。その後、PPO(Proximal Policy Optimization)という強化学習アルゴリズムで、報酬モデルが高得点をつける回答を生成するようAIを微調整する。

報酬モデルの中身——LMの出力ヘッドを「点数」に差し替える

報酬モデルは、ゼロから作るわけではない。SFT 済みのベースLMをコピーし、最後の「次トークン確率を出す出力ヘッド」をスカラー(1次元の点数)を出す回帰ヘッドに置き換えたものだ。プロンプトと応答を連結して入力し、最終トークンの隠れ状態から「この応答の良さ」を表す1個の数値を出力する。

訓練は Bradley–Terry モデル に基づくペアワイズ損失で行う。「採用された応答 chosen」と「却下された応答 rejected」の点数差をシグモイドに通し、その対数尤度を最大化する——つまり「人間が好んだ方が、点数として高くなる」ように重みを更新する。InstructGPT では 175B の方策に対して 6B の小さな報酬モデル を使い、約5万件の比較データで訓練している。Source: Ouyang et al. (2022), arXiv:2203.02155

PPO と KL ペナルティ——「壊れない」ようにチューニングする

PPO(Schulman et al., 2017)は、報酬を最大化しつつ、方策(policy)が一度に大きく変わりすぎないように クリップ付き目的関数 で更新を制限する強化学習アルゴリズム。RLHF ではこれに加えて、SFTモデルからの KLダイバージェンスにペナルティを掛ける。報酬モデルを「ハック」して報酬は高いが意味不明な文字列に走ってしまう(reward hacking)のを防ぐためだ。Source: Schulman et al. (2017), arXiv:1707.06347

RLHFの劇的な効果

InstructGPT論文の最も衝撃的な結果は、RLHFを施した1.3Bパラメータの小さなモデルが、調整前の175Bパラメータの巨大モデル(GPT-3)よりも人間に好まれたという点だった。100倍小さいモデルが、アライメントだけで大きなモデルを上回ったのだ。

< 2%
アライメント(調整)に要したコストは、事前学習コストと比較してわずか 2% 未満。
85% ± 3%
175B InstructGPT は、175B GPT-3 と比べて 85% ± 3% の確率で人間に好まれた。

RLHFの派生——PPO はもう「唯一解」ではない

RLHF は強力だが、報酬モデル+PPO の構成は実装が重く、不安定にもなりやすい。近年の主要モデルでは、より軽量で安定した代替手法が広く採用されている。

DPO

Direct Preference Optimization (2023)

報酬モデルも強化学習も使わず、好み比較データから 分類損失 で直接ファインチューニングする。「LM そのものが暗黙の報酬モデルになる」という再パラメータ化が肝。実装が軽く安定で、Llama 系をはじめ多くのオープンモデルが採用。

RLAIF / Constitutional AI

AI フィードバックで学ぶ (2022)

Anthropic が提案。「憲法」と呼ぶルール集に基づき、AI 自身が応答を批評・改訂し、AIの好みデータで報酬モデルを訓練する。人間ラベラーの負荷を大幅削減し、Claude 系の安全性チューニングの基盤となっている。

GRPO

Group Relative Policy Optimization (2025)

DeepSeek-R1 で採用された推論モデル向けRL。PPO の 価値関数ネットワークを廃し、グループ内の応答スコアの相対比較 でベースラインを推定する。メモリと計算コストを削減しつつ、数学・コーディング推論で o1 級の性能を実現した。

Source: Rafailov et al. (2023), arXiv:2305.18290 / Bai et al. (2022), arXiv:2212.08073 / DeepSeek-AI (2025), arXiv:2501.12948

アライメントの代償——副作用と限界

RLHF にはタダ飯はない。InstructGPT 論文自身が、調整によって 一部の学術ベンチマーク(QA・翻訳など)で性能が落ちる現象——いわゆる アライメント税(alignment tax)——を報告している。OpenAI は事前学習データを微調整時に混ぜ込むことで、この劣化をある程度抑えた。RLHF は「無料で賢くする魔法」ではなく、有用性・無害性と素の能力との間のトレードオフとして理解する必要がある。Source: Ouyang et al. (2022), arXiv:2203.02155 §4.3

もうひとつの限界が ジェイルブレイク(jailbreak)。RLHF によるアライメントは「表層的(shallow)」だと指摘されており、Zou ら(2023)は 勾配ベースで自動生成した敵対的サフィックス を末尾に付け足すだけで、ChatGPT・Claude・Bard・Llama-2-Chat などのアライメントを横断的に突破できることを示した。RLHF は安全性の「最低ライン」を作るが、攻撃者が積極的に探せば穴は見つかる。安全保障は単一手法ではなく、多層防御で考える必要がある。Source: Zou et al. (2023), arXiv:2307.15043

Note

InstructGPT論文(Ouyang et al., 2022)は arXiv:2203.02155 で公開。著者の多くは現在、OpenAIから離れて他社(Anthropicなど)に在籍している。ChatGPT は 2022 年 11 月 30 日に公開され、約 2 か月で 1 億ユーザーを突破。InstructGPT と同じ RLHF レシピを GPT-3.5 に適用した兄弟モデル(sibling)であり、GPT-3 をベースにしているわけではない。

Source: Ouyang et al. (2022), arXiv:2203.02155 / OpenAI