Chapter 1 はじめに / 生成AIの仕組み

Section 01

あらためて、生成AIとは何か

生成AIとは、新しいデータを作り出すAIである。テキスト、画像、音声・音楽、動画——あらゆるモダリティで「これまでなかったもの」を生成できる。

たとえばテキストならメール、レポート、物語、コード。画像ならイラストや写真風のビジュアル、ロゴデザイン。音声・音楽ならナレーションや BGM、歌。動画なら映像やアニメ。これらが、簡単な指示だけで作れるようになった。 本記事ではこの中でもテキスト生成にフォーカスする。

たった 8 年で爆発的に進化した

出発点となる論文「Attention Is All You Need」が発表されたのは 2017 年 6 月。Google Brain の研究者 8 名による論文だった。それから 10 年も経たないうちに、AI にできることは劇的に変わった。

進化の歩みは、ざっくり 5 つの時代に分けられる。Transformer 以前(RNN/LSTM 期)は単語を一つずつ順番に処理する方式で、長い文脈を覚えるのが苦手だった。Transformer 以降の事前学習期(BERT・GPT-2・GPT-3)では、巨大なテキストを一気に読み込む「事前学習」が主流になり、モデルサイズが指数的に膨らんだ。指示チューニング期(ChatGPT)で、会話で使える「アシスタント」になり、マルチモーダル期(GPT-4V・GPT-4o)で目と耳を獲得し、推論期(o1・DeepSeek-R1)で「考えてから答える」モデルに進んだ。

2017

Transformer 登場

Vaswani らが「Attention Is All You Need」を発表。RNN や CNN を使わず、Attention だけでシーケンスを処理する革新的なアーキテクチャ。これが現在のあらゆる生成AIの基礎となる。

2018

BERT 公開

Google の Devlin らが 10 月に発表。Transformer の Encoder を使い、文章を双方向に読んで「穴埋め」で学習する。検索や分類など「読む」タスクで一気に精度が上がった。

2019

GPT-2 公開

OpenAI が 2 月に発表、11 月にフルサイズ(15 億パラメータ)を公開。「次の単語を予測する」だけで自然な長文が書けることを示し、生成AIの方向性を決定づけた。

2020

GPT-3 公開

OpenAI が 1750 億パラメータの巨大モデルを発表。少数の例示だけで多様なタスクをこなす「Few-shot 学習」能力を示した。

2021

Codex / コード生成の幕開け

OpenAI が GitHub Copilot の基盤となる Codex を公開。プログラミング言語を「自然言語の一種」として学習させる手法が広がる。

2022

ChatGPT 公開

11 月 30 日に OpenAI が ChatGPT を公開。GPT-3.5 を InstructGPT と同じ RLHF レシピで調整した対話モデル。UBS 推計で約 2 か月後の 2023 年 1 月に月間アクティブユーザー 1 億人に到達した。

2023

マルチモーダル化のはじまり

GPT-4 と GPT-4V(Vision)、Claude 2 など、画像も理解できるモデルが続々登場。AI が「目」を持ち始めた。

2024

GPT-4o · Claude 3.5 Sonnet

5 月 13 日 OpenAI が GPT-4o(omni)を公開。テキスト・画像・音声を一つのモデルで処理し、音声応答は約 320 ミリ秒と人間並みに。6 月 20 日には Anthropic が Claude 3.5 Sonnet を公開し、コードを別ウィンドウで動かす Artifacts も追加された。

2024

推論モデル(o1)登場

OpenAI が 9 月に o1-preview を公開。回答前に長い「思考の連鎖(Chain of Thought)」を生成し、複雑な数学・科学・コーディング問題で大きく性能向上。

2025

DeepSeek-R1 · オープン推論モデル

1 月 20 日に中国の DeepSeek が R1 を MIT ライセンスで公開。総 6710 億パラメータ・推論時 370 億のみ稼働する MoE 構成で、o1 級の推論性能をオープンに提供。世界の AI 競争地図を塗り替えた。

2025

AI エージェントの普及

タスクを分解し、ツールを自律的に呼び出して複数ステップを実行できる AI エージェントが本格的に実用化されはじめる。

1750億 GPT-3 のパラメータ数(2020)。GPT-2 の約 117 倍。 OpenAI, 2020

3,640 GPT-3 の学習に投入された petaFLOP/s-日。10²⁰ 演算/日 × 約 10 年分相当。 Brown et al., 2020

2 か月 ChatGPT が月間 1 億ユーザーに到達した期間。TikTok は 9 か月、Instagram は 30 か月。 UBS / Reuters, Feb 2023

320ms GPT-4o の音声応答レイテンシ。人間の会話応答(約 210ms)に近づいた。 OpenAI, May 2024

Note

「Attention Is All You Need」の正確な発表日は 2017 年 6 月 12 日。著者 8 名は Google での研究として執筆され(うち Aidan N. Gomez はトロント大学からのインターン、Illia Polosukhin は受理時に Google を離脱済み)、論文では「equal contributors(同等の貢献者)」と記載され、著者順はランダムに決められた。論文タイトルはビートルズの「All You Need Is Love」が由来。

Source: Vaswani et al. (2017), arXiv:1706.03762

Section 02

なぜ今さら、仕組みを学ぶ必要があるのか

生成AIは、もはや「ちょっと便利なツール」ではなくなっている。

以前は、報告書の叩き台を作ったり、メールの下書きを作ったり、ちょっとした質問に答えてもらったりする使い方が中心だった。間違えても影響は限定的だった。

しかし今は違う。経営戦略の方向性の検討、重要な意思決定の判断材料、医療・法務・金融での活用、業務プロセスの自動化——間違えれば大きな影響が出る領域でも、当たり前に使われ始めている。

具体例を挙げると、法務の Harvey は契約レビュー・デューデリジェンス・調査を扱う AI で、AmLaw 100 の半数超に導入されている(2026 年 3 月時点で評価額 110 億ドル)。LexisNexis の Lexis+ AI は判例検索や引用チェックを生成AIで行うリーガルリサーチ製品。医療では OpenEvidence が NEJM・JAMA など査読付き文献に基づいて臨床判断を補助し、米国医師の 4 割超が日次で利用。金融では Bloomberg が 500 億パラメータの BloombergGPT(2023 年)を発表し、金融特化のセンチメント分析や固有表現抽出で汎用モデルを上回った。使う領域が「間違いが許される」から「間違いが大きな代償を生む」へと移ったのが、ここ数年の決定的な変化だ。

Note · 実際に起きた事故

2024 年 2 月、カナダのブリティッシュコロンビア州民事裁定機関(Civil Resolution Tribunal)は、Air Canada のサイト上のチャットボットが死別運賃(bereavement fare)について誤った案内をした件で、航空会社に損害賠償を命じた(Moffatt v. Air Canada, 2024 BCCRT 149)。航空会社は「チャットボットは別の主体だ」と主張したが退けられ、「自社サイトに載せた情報は AI が生成したものでも自社の責任」と判断された。賠償額自体は約 812 カナダドルと小さいが、企業が AI の出力に法的責任を負うことを明確にした最初期の判例として、世界中で引用されている。

Source: Moffatt v. Air Canada, 2024 BCCRT 149 (Feb 14, 2024) — https://www.canlii.org/

以前の使い方

間違えても影響が少ない

報告書の叩き台、メールの下書き、ちょっとした質問への回答など、人間が必ずレビューする前提の補助的な用途。

今の使い方

間違えたら大きな影響がある

経営戦略の検討、重要な意思決定、医療・法務・金融での活用、業務プロセスの自動化など、結果が直接重要な領域に。

運転手に求められる、乗り物の知識レベル

乗り物に例えるなら、自転車に乗るのに仕組みの理解はほぼ不要だが、車を運転するなら最低限のメカニズムは知っておくべきで、飛行機のパイロットには深い理解が求められる。生成AIも、用途が「重要なこと」に拡がるほど、仕組みの理解が求められるようになる。

自転車

仕組みを知らなくても操作ができればまあ大丈夫

自動車

最低限の仕組みは知っておいてほしい

飛行機

パイロットには仕組みを理解してほしい

Tip

「重要なこと」に使われるようになった今、より仕組みの理解が求められる。仕組みを知らないまま使い続けることは、適切な使いどころを判断できないリスクと表裏一体だ。

Section 03

仕組みの理解度——意外と知られていない実態

では実際、生成AI の仕組みはどのくらい知られているのか。社内(IT,DS)でアンケートを取ってみたところ、「次単語予測で文章を作っている」以上のことが、意外と知られていないことがわかった。

生成AIについて知っていることのアンケート

生成AIが次単語予測であること93%

文脈に応じて単語の意味を更新していること(Attention)62%

単語の意味をより深く理解していること(FFN)23%

強化学習をしていること(RLHF, SFT)31%

※ 社内アンケート(N=13)。「1. 理解している、2. ある程度理解している、3. 少し知っている、4. 知らない」の四段階で調査。知っている割合 = 1, 2, 3 と答えた人の割合。

Attention・FFN・強化学習——これらを知れば、AI を「知っている側」になれるチャンスがある。本記事ではこの 3 つを丁寧に解説していく。

これは社内アンケートに限った話ではない。米 Pew Research Center の調査によれば、ChatGPT を「使ったことがある」と答えた米国成人は 2023 年夏の約 18% から 2025 年 6 月時点で 34% へと、約 2 年で倍増している。一方で「ChatGPT について多く聞いている」と答えた人は 34% にとどまり、使う人は増えても、仕組みまで理解している人はまだ少数派という構図が浮かび上がる。Reuters Institute の Digital News Report 2024 でも、ニュース取得に生成AIを使う人は米国で 10%・英国とデンマークでは 2% と、利用が「日常」になるにはまだ距離がある。

出典:Pew Research Center「34% of US adults have used ChatGPT」(2025/6/25)、Reuters Institute Digital News Report 2024。

仕組みの理解が、最新トレンドの把握につながる

絶えず進化する生成AIの世界だからこそ、基本の仕組みを紐解くことが、最新トレンドを乗りこなす大事な基盤になる。本シリーズでは、生成AI 理解の知識基盤となる体系的な理解をゴールとする。専門用語や数式は、できるだけ一般用語に置き換えて説明していく。