Chapter 5 課題とまとめ / 生成AIの仕組み

Section 13

ハルシネーションはなぜ起きるのか

ここまで仕組みを理解すると、生成AIの大きな課題である「ハルシネーション(もっともらしい嘘をつく現象)」がなぜ起きるかも見えてくる。

2 種類のハルシネーション:Intrinsic と Extrinsic

Ji らによる包括的サーベイ「Survey of Hallucination in Natural Language Generation」(arXiv:2202.03629, ACM Computing Surveys 55, 2023)では、ハルシネーションを次の 2 種類に整理している。

Intrinsic(内在的)

入力に矛盾する

与えられた文脈・ソース文書と直接矛盾する出力。たとえば「彼は 2010 年に生まれた」と書かれた記事を要約させたら「2001 年生まれ」と返してくる、といったケース。

Extrinsic(外在的)

世界の事実として誤っている

入力には矛盾しないが、現実世界の事実と食い違う出力。実在しない論文・判例・API・人物を堂々と引用してくるのが典型例。検出が難しいのはこちら。

本質的な原因:「次トークン予測」という設計

LLMは設計上、「事実を検証する」ことではなく「もっとも確率の高い次のトークンを予測する」ことに最適化されている。これがハルシネーションの本質的な原因だ。

たとえば「熟したバナナの色は…」と入力すれば、「黄色」が99%の確率で選ばれる。ハルシネーションのリスクは低い。だが「Einsteinと蒸気機関の関係をカント哲学の視点から説明して」のような、学習データにあまり現れない組み合わせを聞くと、どのトークンも確率が低くなる。それでもAIは何かを生成しなければならず、「もっともらしく聞こえる」けれど事実無根の答えを作り出してしまう。

原因はもう少し細かく分解できる

① 学習目的のミスマッチ

事前学習が報酬として与えるのは「次トークンの尤度」であって「真実性」ではない。もっともらしい文を作る練習は果てしなく積むが、事実かどうかを判定する仕組みは内蔵されていない。

② 知識のカットオフ

モデルは学習データの締め日以降の出来事を知らない。聞かれれば「知らない」と返すべき場面で、それまでの似た文脈からもっともらしい嘘を補完してしまう。

③ キャリブレーションの失敗

モデルは「自分が何を知らないか」を確実には把握できない。確信度と正答率がそろっていないため、誤りでも自信満々に出力する。

④ 雪だるま効果(Snowball Effect)

一度間違ったトークンを出力すると、それが次の予測の入力になる。論理的に一貫させるため、AIは最初の嘘に合わせてさらに嘘を重ねていく。

RLHFと評価の限界:「自信を持って答える」ことが評価される

OpenAI 等が 2025 年 9 月に発表した論文「Why Language Models Hallucinate」(Kalai, Nachum, Vempala, Zhang)は、現在の学習・評価方法そのものが、「自信を持った推測」を「分からないと答える」ことより優遇していると統計的に示した。多くのベンチマークが「I don't know」を 0 点扱いするため、モデルは曖昧でも答えを返すよう最適化されてしまう。RLHFの段階でも、人間の評価者は長く詳細な回答を好む傾向があり、これがバイアスを増幅する。

緩和策:完全には消えないが、減らす技術はある

Mitigations

ハルシネーションを完全に消すことは現状不可能だが、緩和する方法はいくつもある。

・RAG(検索拡張生成): 質問時に外部の信頼できる文書を検索し、コンテキストに差し込んでから答えさせる。Lewis らの原論文は 2020 年。
・Self-Consistency: 同じ質問について Chain-of-Thought を複数サンプリングし、多数決で最終回答を決める。GSM8K で +17.9 ポイントの改善が報告されている。
・Semantic Entropy: 同じ質問への複数回答が意味的にばらつく(=確信できていない)ことを検出する。
・Tool Use / Function Calling: 計算・検索・DB 参照などをモデル本体ではなく外部ツールに任せる。
・Citation-Grounded Responses: 出典 URL を必ず付けさせる(Perplexity 方式)。捏造されたソースは人間がすぐ見抜ける。
・低い温度パラメータ: 創造性を抑え、最確トークンを優先。
・クリティカルシンキング: 結局、人間によるファクトチェックが最後の砦。

Sources: Lewis et al. (2020) arXiv:2005.11401 / Wang et al. (2022) arXiv:2203.11171 / Farquhar et al. (2024) Nature

Note · Semantic Entropy

Nature 誌 2024 年 6 月号に掲載された Farquhar らの論文では、「セマンティック・エントロピー」と呼ばれる手法が提案された。同じ質問に対する複数回答が意味的に大きくばらつく場合(言い回しではなく主張そのものが揺れる場合)、その回答は信頼性が低いと判定する——というシンプルな指標で、ハルシネーション検出に有効だと示された。

Source: Farquhar et al. (2024), Nature; Kalai, Nachum, Vempala, Zhang (2025), "Why Language Models Hallucinate", arXiv:2509.04664

「推論」もパターンマッチング?——GSM-Symbolic の発見

Apple の Mirzadeh らが 2024 年 10 月に発表した「GSM-Symbolic」(arXiv:2410.05229)は、定番の数学ベンチマーク GSM8K の問題から、登場人物の名前や数字だけを差し替えた変種を作って各モデルを再評価した。結果、平均精度の落差はモデル次第で 0.3%(GPT-4o)から 9.2%(Mistral-7B)。名前だけの置換は影響が小さい一方、数字の置換は同じ手順の問題でも明確に精度を下げた。これは LLM の「推論」のかなりの部分が、論理的演繹ではなく学習データへのパターンマッチングであることを示唆している。

フロンティアモデルでも消えていない

ハルシネーションはアーキテクチャレベルで未解決の問題で、最新モデルでも「減った」だけで「消えた」わけではない。Vectara が 2025 年末に刷新した HHEM-2.3 ベースの Hallucination Leaderboard では、長文要約タスクにおいて Gemini-2.5-flash-lite が 3.3% と最も低い一方、Claude Sonnet 4.5・GPT-5・Grok-4・DeepSeek-R1 といった主力モデルはいずれも 10% を超えるハルシネーション率を記録している。「賢い」ことと「正直」なこととは別物だ。

Summary

まとめ

生成AI(Transformer)の根っこにある仕組みは 「次トークン予測」 という極めてシンプルなもの。ただ、それが実用的なサービスとして動いているのは、Embedding・Attention・FFN による文脈理解と、SFT・RLHF によるアライメントという、複数の仕組みが組み合わさっているおかげだ。

このシリーズを最後まで読んだあなたは、もう自分の言葉で次のことを説明できるはずだ——文章はトークンに分解され、Embedding でベクトルになり、Attention で文脈に応じて意味を更新し、FFN で蓄積された知識を引き出して、次の 1 トークンが選ばれる。それが何兆語ぶんかの事前学習で土台ができ、SFT でアシスタント的な応答スタイルを覚え、RLHF で人間の好みに寄り添うように仕上げられている。だからこそ、学習データにない組み合わせにはハルシネーションが起きる。だからこそ、具体的でコンテキスト豊富なプロンプトほどよい答えが返ってくる。

生成AIが「重要な意思決定」の材料に使われるようになった今、安全に使いこなすためには、「最低限の理解」がリテラシーとして求められる時代に入っている。仕組みを知ることは、ハルシネーションがなぜ起きるのか、なぜ具体的なプロンプトが必要なのかを腹落ちさせ、AIの限界と可能性を見極める目を与えてくれる。新しいモデルの発表記事を読むときも、「パラメータ数」「データ量」「学習段階」「推論時計算」のどこを伸ばしたのか、自分の頭で評価できるようになっているはずだ。

目まぐるしく変わる生成AIの情報に惑わされないためにも、
まずは仕組みという『土台』を固めていこう。
生成AIのトレンドを、これからも最前線でキャッチアップしていきたい。

Appendix

付録

補論:推論モデルの系譜

2024 年 9 月に OpenAI が公開した o1-preview は、回答を生成する前に「思考の連鎖(Chain of Thought)」を内部で長く展開する「推論モデル」だ。Daniel Kahneman が『ファスト&スロー』で論じた「システム 2(熟考型)思考」を AI に導入する試みと言える。共通する設計思想は test-time compute scaling——すなわち、学習後に推論時の計算量(=考える時間)を増やすほど性能が伸びる、という新しいスケーリング軸だ。

OpenAI o1(2024 年 9 月)

強化学習で「考え方」自体を訓練し、数学オリンピック・競技プログラミング・博士レベルの科学問題で従来モデルを大きく上回った。最初の本格的な推論モデル。

OpenAI o3(2024 年 12 月発表 → 2025 年公開)

「12 Days of OpenAI」イベント(2024 年 12 月 20 日)で発表。小型版の o3-mini が 2025 年 1 月 31 日に、フル o3 が 2025 年 4 月 16 日に一般公開された。

DeepSeek-R1(2025 年 1 月 20 日)

中国の DeepSeek が MIT ライセンスで公開したオープンウェイトの推論モデル。GRPO(Group Relative Policy Optimization) による強化学習で、ルールベース報酬を組み合わせて学習。o1 級の数学・コーディング性能をオープンに提供し、業界の力学を変えた。

Anthropic Claude Extended Thinking(2025 年 2 月 / Claude 3.7 Sonnet)

Claude 3.7 Sonnet で「ハイブリッド推論」として導入。応答前に段階的に思考し、難問でのみ計算を厚く配分するモード。後継の Opus 4.7 では adaptive thinking として自動化された。

ただし、Apple の Mirzadeh らが 2024 年 10 月に発表した GSM-Symbolic 論文では、同じ問題でも数字を変えるだけで性能が落ちることが報告された。LLM が本当に「推論」しているのか、それとも巧妙なパターンマッチングなのかは、現在も活発に議論されている。

クイック用語集

トークン

テキストを処理するための最小単位。単語より細かい「サブワード」単位で分割されることが多い。

Embedding

各トークンを数百〜数千次元のベクトルに変換した表現。意味の近いトークンはベクトル空間で近くに配置される。

Attention

各トークンが文中の他のトークンをどれだけ「参照」するかを計算する仕組み。文脈に応じて意味を動的に更新する。

FFN(Feed-Forward Network)

Attention の後段に置かれる全結合層。学習で蓄えた知識を引き出し、トークン表現をさらに加工する。

Transformer

Attention と FFN を積み重ねたアーキテクチャ。2017 年の論文「Attention Is All You Need」で提案。現在の生成AIのほぼ全てがこれを基盤にしている。

事前学習(Pre-training)

巨大なテキストコーパスで「次のトークン当て」をひたすら繰り返す段階。文法と世界知識の土台ができる。

SFT(Supervised Fine-Tuning)

「質問と理想回答」のペアでお手本を学習させ、ベースモデルをアシスタント形式に変える段階。

RLHF

Reinforcement Learning from Human Feedback。複数回答に人間が順位をつけ、報酬モデル経由で強化学習する。好みのアライメント。

ハルシネーション

もっともらしいが事実無根の出力。Intrinsic(入力と矛盾)と Extrinsic(世界と矛盾)に大別される。

Chain-of-Thought(CoT)

答えに至る途中の思考過程をモデルに書き出させるプロンプト技法。複雑な推論タスクで精度が大きく上がる。

RAG(Retrieval-Augmented Generation)

外部知識を検索して、コンテキストに差し込んでから生成させる方式。ハルシネーション緩和の主力手法。

スケーリング則

モデルサイズ・データ量・計算量を増やすほど性能が一定の法則で向上する経験則。Kaplan(2020)・Chinchilla(2022)が代表的。

生成AIの仕組みに興味を持った方へおすすめ動画

日本語で生成AIの仕組みを学ぶなら、3Blue1BrownJapanのチャンネルが圧倒的におすすめ。映像と数式の橋渡しが秀逸。

ハルシネーション、まとめ、そしてその先

ハルシネーションはなぜ起きるのか

2 種類のハルシネーション:Intrinsic と Extrinsic

入力に矛盾する

世界の事実として誤っている

本質的な原因:「次トークン予測」という設計

原因はもう少し細かく分解できる

① 学習目的のミスマッチ

② 知識のカットオフ

③ キャリブレーションの失敗

④ 雪だるま効果(Snowball Effect)

RLHFと評価の限界:「自信を持って答える」ことが評価される

緩和策:完全には消えないが、減らす技術はある

「推論」もパターンマッチング?——GSM-Symbolic の発見

フロンティアモデルでも消えていない

まとめ

付録

補論:推論モデルの系譜

OpenAI o1(2024 年 9 月)

OpenAI o3(2024 年 12 月発表 → 2025 年公開)

DeepSeek-R1(2025 年 1 月 20 日)

Anthropic Claude Extended Thinking(2025 年 2 月 / Claude 3.7 Sonnet)

クイック用語集

トークン

Embedding

Attention

FFN(Feed-Forward Network)

Transformer

事前学習(Pre-training)

SFT(Supervised Fine-Tuning)

RLHF

ハルシネーション

Chain-of-Thought(CoT)

RAG(Retrieval-Augmented Generation)

スケーリング則

生成AIの仕組みに興味を持った方へおすすめ動画

主な参考文献

ハルシネーションはなぜ起きるのか

2 種類のハルシネーション:Intrinsic と Extrinsic

入力に矛盾する

世界の事実として誤っている

本質的な原因:「次トークン予測」という設計

原因はもう少し細かく分解できる

① 学習目的のミスマッチ

② 知識のカットオフ

③ キャリブレーションの失敗

④ 雪だるま効果(Snowball Effect)

RLHFと評価の限界:「自信を持って答える」ことが評価される

緩和策:完全には消えないが、減らす技術はある

「推論」もパターンマッチング?——GSM-Symbolic の発見

フロンティアモデルでも消えていない

まとめ

付録

補論:推論モデルの系譜

OpenAI o1(2024 年 9 月)

OpenAI o3(2024 年 12 月発表 → 2025 年公開)

DeepSeek-R1(2025 年 1 月 20 日)

Anthropic Claude Extended Thinking(2025 年 2 月 / Claude 3.7 Sonnet)

クイック用語集

トークン

Embedding

Attention

FFN(Feed-Forward Network)

Transformer

事前学習(Pre-training)

SFT(Supervised Fine-Tuning)

RLHF

ハルシネーション

Chain-of-Thought(CoT)

RAG(Retrieval-Augmented Generation)

スケーリング則

生成AIの仕組みに興味を持った方へ おすすめ動画

主な参考文献

生成AIの仕組みに興味を持った方へおすすめ動画