Transformer 登場
Vaswani らが「Attention Is All You Need」を発表。RNN や CNN を使わず、Attention だけでシーケンスを処理する革新的なアーキテクチャ。これが現在のあらゆる生成AIの基礎となる。
BERT 公開
Google の Devlin らが 10 月に発表。Transformer の Encoder を使い、文章を双方向に読んで「穴埋め」で学習する。検索や分類など「読む」タスクで一気に精度が上がった。
GPT-2 公開
OpenAI が 2 月に発表、11 月にフルサイズ(15 億パラメータ)を公開。「次の単語を予測する」だけで自然な長文が書けることを示し、生成AIの方向性を決定づけた。
GPT-3 公開
OpenAI が 1750 億パラメータの巨大モデルを発表。少数の例示だけで多様なタスクをこなす「Few-shot 学習」能力を示した。
Codex / コード生成の幕開け
OpenAI が GitHub Copilot の基盤となる Codex を公開。プログラミング言語を「自然言語の一種」として学習させる手法が広がる。
ChatGPT 公開
11 月 30 日に OpenAI が ChatGPT を公開。GPT-3.5 を InstructGPT と同じ RLHF レシピで調整した対話モデル。UBS 推計で約 2 か月後の 2023 年 1 月に月間アクティブユーザー 1 億人に到達した。
マルチモーダル化のはじまり
GPT-4 と GPT-4V(Vision)、Claude 2 など、画像も理解できるモデルが続々登場。AI が「目」を持ち始めた。
GPT-4o · Claude 3.5 Sonnet
5 月 13 日 OpenAI が GPT-4o(omni)を公開。テキスト・画像・音声を一つのモデルで処理し、音声応答は約 320 ミリ秒と人間並みに。6 月 20 日には Anthropic が Claude 3.5 Sonnet を公開し、コードを別ウィンドウで動かす Artifacts も追加された。
推論モデル(o1)登場
OpenAI が 9 月に o1-preview を公開。回答前に長い「思考の連鎖(Chain of Thought)」を生成し、複雑な数学・科学・コーディング問題で大きく性能向上。
DeepSeek-R1 · オープン推論モデル
1 月 20 日に中国の DeepSeek が R1 を MIT ライセンスで公開。総 6710 億パラメータ・推論時 370 億のみ稼働する MoE 構成で、o1 級の推論性能をオープンに提供。世界の AI 競争地図を塗り替えた。
AI エージェントの普及
タスクを分解し、ツールを自律的に呼び出して複数ステップを実行できる AI エージェントが本格的に実用化されはじめる。