「AIは指数関数的に進化してる」は本当か——7年分のデータで確かめた

この記事のポイント

✓「2019年から指数関数的に進化」はデータで支持される。ただし2024年9月を境に倍化周期が約7ヶ月→約3〜4ヶ月へ折れる「加速する区分指数」だった
✓「最近ガッと上がりすぎ」も数字にできる。2026年4月のMythos PreviewはEpoch能力指数（ECI）の年率換算で約4倍の加速、METR時間水平は16時間＋で測定の上限に到達した
✓2026年6月9日のFable 5公開で、段差は「非公開の観測値」から「誰でも使える前提」に変わった。残る争点は、段差の本当の高さと恒久性

このページの目次

1. 「指数関数的に進化してる」を、確かめたくなった
2. 物差しを2本用意する
3. 検証①: 投入は指数か——7年で100万倍
4. 検証②: 能力は指数か——折れ曲がる倍化周期
5. 「ガッと上がった」の正体——段差の解剖
6. 段差をどう読むか——4つの解釈
7. 結論——「待つ問い」から「測る問い」へ

SECTION 1

「指数関数的に進化してる」を、確かめたくなった

きっかけは、ある配信で耳にした発言だった。

「2019年ごろからAIは指数関数的に進化してきてる。とはいえMythosのレベル感はガッと上がりすぎた感がある」

— 安野貴博氏（チームみらい）の発言趣旨。記憶に基づく再構成であり、逐語引用ではない。

この短い発言には、よく考えると2つの独立した主張が含まれている。「2019年から指数関数的」という長期トレンドの主張と、「Mythosでガッと上がりすぎた」という直近の逸脱の主張だ。

自分もAIエージェントの記事を書きながら、進化の速さをずっと体感で語ってきた。「速くなった気がする」「最近すごい」。でも体感は物差しにならない。この2つの主張は、それぞれ独立にデータで検証できるはずだ。

そこで公開データを集めて、7年分のトレンドを描き直してみた。結論を先に言うと、どちらの主張も支持される。ただし、どちらにも面白い「但し書き」が付く。

SECTION 2

物差しを2本用意する

「進化」を測るには物差しがいる。ベンチマークのスコアは直感的だが、2026年現在は静的ベンチマークの多くが上限に張り付いていて（後述）、長期トレンドの物差しには向かない。今回は性質の違う2本を使う。

物差し	測るもの	出典
訓練計算量	モデル訓練に投入されたFLOP数。「どれだけリソースを注いだか」という入力側の指標	Epoch AI
METR時間水平	成功率50%で完了できるタスクの人間換算作業時間。「どれだけ長い仕事を任せられるか」という出力側の指標	METR

入力（計算量）と出力（能力）の両方が対数軸上で直線なら、「指数関数的に進化」は強い意味で支持される。片方だけなら、但し書きが必要になる。

グラフを見る前に、ひとつだけ読み方の確認を。

対数軸の読み方——「直線＝倍々ゲーム」

本記事のグラフは縦軸が対数。1→2→4→8…という「倍々」が等間隔に刻まれる軸で、一定ペースの倍々成長（＝指数関数）はまっすぐな直線として現れる。だから「直線に乗っているか」を見るだけで指数かどうか判定でき、直線の傾きがそのまま成長の速さになる。直線から上に外れた点が、今回のテーマの「段差」だ。

METR時間水平とは

評価機関METRが提唱する指標。「人間がやると30分かかるタスク」をAIが50%の確率で完遂できるなら、時間水平は30分。タスクを長くすればいくらでも上が測れるため、静的ベンチマークのように飽和しにくい設計になっている。

SECTION 3

検証①: 投入は指数か——7年で100万倍

まず入力側。主要モデルの訓練計算量を対数軸に並べると、こうなる。

Fig. 01 — Training Compute

主要モデルの訓練計算量（FLOP・対数軸）

縦軸は対数。直線＝指数的成長。▲＝オープンウェイト、点線＝年率約5倍の参照線。出典: Epoch AI Notable Models Database（一部推定値を含む）。

GPT-2（2019年、約10²¹ FLOP）から2026年のフロンティア級（推定約10²⁷ FLOP）まで、7年でおよそ100万倍。対数軸上でほぼ直線に乗り、年率にして約4〜5倍のペースで投入が増え続けている。

ひとつだけ、きれいな直線から大きく外れる点がある。2024年12月のDeepSeek V3だ。約3.4×10²⁴ FLOPという桁違いに少ない計算量でフロンティア級の性能に到達した。「指数」はあくまで投入量の話であり、その下では効率の革新が並走している——この反例は覚えておく価値がある。

検証①の中間結論

計算投入は対数軸上でほぼ直線。「2019年から指数関数的」は、入力側の観点で支持される。

SECTION 4

検証②: 能力は指数か——折れ曲がる倍化周期

次に出力側。METR時間水平を同じく対数軸に並べる。こちらが本命だ。

Fig. 02 — METR Time Horizon

成功率50%タスクの時間水平（対数軸）

点線＝各期間の参照トレンド。◆塗り＝Mythos Preview（実測16時間＋・測定上限）、◆白抜き＝Fable 5/Mythos 5（METR未測定・同級の参考表示）、金縁＝Opus 4.7/4.8（METR未公表・推定）。出典: METR Time Horizon 1.0/1.1、2026年の点は一部推定。

時間水平も指数的に伸びている。GPT-2は数秒、GPT-4で約5分、o1で約40分、GPT-5で約2.3時間。ただし、単一の直線ではない。

2024年9月のo1——推論モデルの登場を境に、グラフの勾配がはっきり折れる。倍化周期は約7ヶ月から約3〜4ヶ月へ。METRの最新集計（Time Horizon 1.1）では、2024年以降の倍化は89〜109日と推定されている。テストタイム計算——考える時間を増やすほど賢くなる仕組み——の開花が、能力曲線そのものを加速させた。

倍化周期の直感

「倍化周期4ヶ月」と聞いてもピンと来ないので、複利で考える。4ヶ月で2倍なら1年で約8倍、3ヶ月なら1年で約10倍。いま2時間の仕事を任せられるAIは、この調子なら1年後に16〜20時間級の仕事を任せられる計算になる。「なんか急に追いつけなくなった」という体感の正体は、たぶんこの複利だ。

つまり7年間の実態は、1本の指数ではなく「途中で加速する区分指数」だった。発言の前半「2019年から指数関数的」は、この但し書き付きで支持される。

7年を整理すると、4つの段階に分かれる。

2019–2021

スケーリングの発見

GPT-2→GPT-3。計算量およそ200倍。「計算を積めば汎用能力が立ち上がる」ことの実証期。時間水平は数秒。

2022–2023

RLHFと社会実装

ChatGPT→GPT-4 / Claude 1。整列技術が「賢さ」を製品に変換し、公開2ヶ月で1億ユーザーへ。時間水平〜5分。

2024–2025

推論とエージェント

o1でテストタイム計算が開花、倍化周期7→4ヶ月。DeepSeek V3がオープンウェイトをフロンティアに合流させる。時間水平数十分→2時間超。

2026 Q1–Q2

飽和・段差・公開

静的ベンチが飽和（GPQA 94.6%）する中、Mythosが段差を刻み、6月にFable 5が段差を一般提供化。時間水平 5〜16時間＋。

検証②の中間結論

能力も指数。ただし2024年9月に勾配が変わる区分指数であり、「指数関数的」という一言には実は2本の直線が隠れていた。

SECTION 5

「ガッと上がった」の正体——段差の解剖

ここからが発言の後半、「Mythosでガッと上がりすぎた感」の検証だ。結論から言うと、この体感には定量的な実体がある。

2026年4月7日、AnthropicはClaude Mythos PreviewのSystem Card（244ページ）を公開した。一般提供なしでSystem Cardだけが出るのは初めてのことで、この時点でただ事ではない。

鍵になる指標がEpoch能力指数（ECI）だ。System Cardには、このECIのトレンドが上方に折れたこと、加速幅は折れ点の取り方次第で1.86〜4.3倍になることが記されている。直前フロンティアのOpus 4.6を折れ点に取った第三者分析では、年率換算15.7→67.4ポイント——×4.28、つまり約8ヶ月分の進歩を2ヶ月で消化した計算になる。

Epoch能力指数（ECI）とは

Epoch AIが算出する統合能力指数。個別のベンチマークが上限に張り付いて差を測れなくなったため、多数のベンチマークを統合して「飽和しにくい1本の物差し」に仕立てたもの。テストの点数が頭打ちなら、複数のテストを束ねて偏差値を作り直す——そういう発想だ。

個別指標で見ても、非連続さは際立つ。比較対象はいずれも直前フロンティアのOpus 4.6。

指標	Opus 4.6 → Mythos	意味
ECI 年率換算（第三者分析）	15.7 → 67.4	×4.28の加速。2ヶ月で約8ヶ月分
SWE-bench Verified	80.8 → 93.9%	ソフトウェア課題で+13.1pt
Terminal-Bench 2.0	65.4 → 82.0%	長時間エージェント課題の裏付け
METR時間水平	5〜6時間圏 → 16時間＋	測定上限に到達。実際はさらに上の可能性
Firefoxゼロデイ悪用（成功率）	15.2 → 84%	安全側の懸念に直結。承認組織のみの限定提供の理由

面白いのはここからだ。段差のあとに何が起きたかを時系列で追うと、2026年上半期の構図が見えてくる。

2026.04.07

Mythos Preview公開。ECI年率×4.28の段差。ただしサイバー能力の懸念から承認組織のみの限定提供。

2026.04.16

Opus 4.7公開。ベンチ水準は連続改良の範囲で、Mythosのような非連続の伸びは見られない。段差はMythosレーンだけの現象に見えた。

2026.05.28

Opus 4.8公開。公式表現は「控えめだが確かな改良」。Opusレーンはあくまでトレンド上を連続的に進む。

2026.06.09

Fable 5 / Mythos 5公開。Mythos級が一般提供へ。同一の基盤モデルを、安全分類器あり（Fable 5・API提供＋6/9〜6/22の期間限定で有料プランにも提供）と一部分類器なし（Mythos 5・Project Glasswingパートナー＋一部の生物学研究者に限定）に二分する構成。SWE-Bench Proは80.3%（同社報告値）。価格はOpus 4.8の2倍（$10/$50 vs $5/$25）。

つまり「ガッと上がりすぎた感」は、4月時点ではSystem Cardの中の数字だった。それが6月9日、誰でも使える製品として配られた。段差は「非公開の観測値」から「日常の前提」に変わったわけだ。 ※ 正確には、Fable 5の有料プランへの同梱は6月22日までの期間限定で、6月23日以降はAPI提供のみになる予定。「日常の前提」の主戦場はAPI経由のエージェント・ツール群になる。

解釈の留保

・「16時間＋」は実力の下限値。METRの228タスク中、16時間級はわずか5問しかなく、物差しの側が先に尽きた。第三者分析には実力を約87時間と推定するものまである
・「段差の高さ」はトレンド線の引き方に依存する。倍化約4ヶ月の線と比べれば上方乖離だが、最新の倍化推定（89日）を当てはめると16時間はほぼトレンド上とも読める。確定には物差しの更新が要る
・×4.28は折れ点の取り方に依存する。System Card自体は加速幅を1.86〜4.3倍のレンジで記載しており、×4.28はその上限寄りの読みにあたる
・Opus 4.6〜4.8のMETR実測は未公表。第三者推定には約6時間〜十数時間と大きな幅があり、「Opusレーンはトレンド上」という整理にも推定が含まれる

SECTION 6

段差をどう読むか——4つの解釈

段差が実在するとして、それが何を意味するかは別の問いだ。読み方は4つに整理できる。それぞれに支持材料と反証材料がある。

A恒久加速説——勾配そのものが変わった

推論・エージェント学習・合成データの複利が効き始めた、新しい成長レジームの第一号という読み。

＋ ECI年率15.7→67.4。Preview→Fable 5と階級として更新が続く
− 並走するOpusレーンは旧トレンドライン上に留まる

B外れ値説——一点の逸脱にすぎない

特定領域への集中投資や評価条件の差が生んだ突出で、系列の勾配は変わっていないという読み。

＋公開Opus系列（4.5→4.7→4.8）は連続的でライン上にある
− 6/9に「一点」は製品階級になった。継続する段差は単発では説明しづらい

C測定飽和説——物差しの側が壊れている

指標が天井に達して解像度が落ち、見かけの「段差」や「鈍化」が混在しているという読み。

＋ GPQA Diamond 94.6%の張り付きに加え、飽和しにくいはずのMETRすら16時間級タスクが5問しか残っていなかった
− 物差しの問題があっても、Terminal-BenchやSWE-bench Verifiedの伸び幅そのものは消えない

D公開ラグ説——「ガッと感」は公開戦略の産物

内部の進歩は連続でも、公開が離散的なら体感は階段状になる。体感の正体は公開タイミングだという読み。

＋ラグの実在は確認された——Previewから2ヶ月でFable 5が一般化
− ラグは2ヶ月と短く、System Cardの段差データ自体は消えない

どれが正しいかを今決める必要はない。大事なのは、それぞれの説に「こうなったら棄却される」という判定条件を付けておくことだ。

判定条件

第一の試金石はMETRによるFable 5実測の公表。Preview同様16時間級なら、Mythos級レーンの実在が第三者確認される。第二に、2026年後半〜2027年前半の各社フロンティアが (a) 加速後トレンド（倍化約3〜4ヶ月）の延長に収まればBまたはD、(b) それすら上回り続ければAが有力。そして第三に、METRのタスクスイート拡張。16時間で尽きた物差しが延びて初めて、段差の本当の高さが測れる（Cの補正項でもある）。

SECTION 7

結論——「待つ問い」から「測る問い」へ

検証結果をまとめる。

「2019年から指数関数的に進化」は支持される。ただし単一の指数ではなく、2024年9月の推論モデル登場を境に倍化周期が約7ヶ月から約3〜4ヶ月へ折れる、加速する区分指数だった。

「Mythosでガッと上がりすぎた」にも定量的な実体があった。ECIの年率換算は第三者分析で×4.28（System Card自身のレンジでも最大4.3倍）、METR時間水平は16時間＋で物差しの上限に到達。そして2026年6月9日、その段差はFable 5として一般提供され、「観測者の感想」から「利用者の日常」になった。

フロンティアの構造も変わった。連続改良のOpusレーン（$5/$25）の上に、Mythos級レーン（$10/$50）が常設され、能力の段差が製品階層と価格に翻訳された。同一モデルを安全分類器の有無で二分する提供形態は、能力と安全を分離する新しい運用の型でもある。

そして個人的に一番大きいのはここだ。非公開のPreviewでは第三者検証ができなかった。一般提供が始まった今、METR実測も独立ベンチも実務レポートも、これから揃っていく。「段差は勾配変化か、外れ値か」という本稿の問いは、待つ問いから測る問いに変わった。

体感を数字にしてみて思うのは、「すごく速くなった気がする」のままでは、備えようがないということだ。倍化周期が3〜4ヶ月なら、1年後にAIへ任せられる仕事の長さは今の8〜10倍。自分の仕事の組み立てを、その前提で見直す。データで確かめたからこそ、その逆算に意味が出る。

本稿のデータについて

出典はEpoch AI（訓練計算量・ECI）、METR Time Horizon 1.0/1.1（時間水平）、Anthropic Mythos Preview System CardおよびFable 5 / Mythos 5・Opus 4.8の各発表等。ECIの年率×4.28はOpus 4.6を折れ点に取った第三者分析の値で、System Card自身は1.86〜4.3倍のレンジで記載。図中のOpus 4.7/4.8とFable 5の時間水平は推定・参考表示であり、訓練FLOPの多くも推定値を含む。冒頭の発言は記憶に基づく趣旨の再構成であり、逐語引用ではない。

AIトレンドデータ検証 METR スケーリング 2026

著者: しきぴょんた / 2026年6月