この記事のポイント
- ✓「2019年から指数関数的に進化」はデータで支持される。ただし2024年9月を境に倍化周期が約7ヶ月→約3〜4ヶ月へ折れる「加速する区分指数」だった
- ✓「最近ガッと上がりすぎ」も数字にできる。2026年4月のMythos PreviewはEpoch能力指数(ECI)の年率換算で約4倍の加速、METR時間水平は16時間+で測定の上限に到達した
- ✓2026年6月9日のFable 5公開で、段差は「非公開の観測値」から「誰でも使える前提」に変わった。残る争点は、段差の本当の高さと恒久性
「指数関数的に進化してる」を、確かめたくなった
きっかけは、ある配信で耳にした発言だった。
「2019年ごろからAIは指数関数的に進化してきてる。とはいえMythosのレベル感はガッと上がりすぎた感がある」
— 安野貴博氏(チームみらい)の発言趣旨。記憶に基づく再構成であり、逐語引用ではない。
この短い発言には、よく考えると2つの独立した主張が含まれている。「2019年から指数関数的」という長期トレンドの主張と、「Mythosでガッと上がりすぎた」という直近の逸脱の主張だ。
自分もAIエージェントの記事を書きながら、進化の速さをずっと体感で語ってきた。「速くなった気がする」「最近すごい」。でも体感は物差しにならない。この2つの主張は、それぞれ独立にデータで検証できるはずだ。
そこで公開データを集めて、7年分のトレンドを描き直してみた。結論を先に言うと、どちらの主張も支持される。ただし、どちらにも面白い「但し書き」が付く。
物差しを2本用意する
「進化」を測るには物差しがいる。ベンチマークのスコアは直感的だが、2026年現在は静的ベンチマークの多くが上限に張り付いていて(後述)、長期トレンドの物差しには向かない。今回は性質の違う2本を使う。
| 物差し | 測るもの | 出典 |
|---|---|---|
| 訓練計算量 | モデル訓練に投入されたFLOP数。「どれだけリソースを注いだか」という入力側の指標 | Epoch AI |
| METR時間水平 | 成功率50%で完了できるタスクの人間換算作業時間。「どれだけ長い仕事を任せられるか」という出力側の指標 | METR |
入力(計算量)と出力(能力)の両方が対数軸上で直線なら、「指数関数的に進化」は強い意味で支持される。片方だけなら、但し書きが必要になる。
グラフを見る前に、ひとつだけ読み方の確認を。
対数軸の読み方——「直線=倍々ゲーム」
本記事のグラフは縦軸が対数。1→2→4→8…という「倍々」が等間隔に刻まれる軸で、一定ペースの倍々成長(=指数関数)はまっすぐな直線として現れる。だから「直線に乗っているか」を見るだけで指数かどうか判定でき、直線の傾きがそのまま成長の速さになる。直線から上に外れた点が、今回のテーマの「段差」だ。
METR時間水平とは
評価機関METRが提唱する指標。「人間がやると30分かかるタスク」をAIが50%の確率で完遂できるなら、時間水平は30分。タスクを長くすればいくらでも上が測れるため、静的ベンチマークのように飽和しにくい設計になっている。
検証①: 投入は指数か——7年で100万倍
まず入力側。主要モデルの訓練計算量を対数軸に並べると、こうなる。
Fig. 01 — Training Compute
主要モデルの訓練計算量(FLOP・対数軸)
縦軸は対数。直線=指数的成長。▲=オープンウェイト、点線=年率約5倍の参照線。出典: Epoch AI Notable Models Database(一部推定値を含む)。
GPT-2(2019年、約1021 FLOP)から2026年のフロンティア級(推定 約1027 FLOP)まで、7年でおよそ100万倍。対数軸上でほぼ直線に乗り、年率にして約4〜5倍のペースで投入が増え続けている。
ひとつだけ、きれいな直線から大きく外れる点がある。2024年12月のDeepSeek V3だ。約3.4×1024 FLOPという桁違いに少ない計算量でフロンティア級の性能に到達した。「指数」はあくまで投入量の話であり、その下では効率の革新が並走している——この反例は覚えておく価値がある。
検証①の中間結論
計算投入は対数軸上でほぼ直線。「2019年から指数関数的」は、入力側の観点で支持される。
検証②: 能力は指数か——折れ曲がる倍化周期
次に出力側。METR時間水平を同じく対数軸に並べる。こちらが本命だ。
Fig. 02 — METR Time Horizon
成功率50%タスクの時間水平(対数軸)
点線=各期間の参照トレンド。◆塗り=Mythos Preview(実測16時間+・測定上限)、◆白抜き=Fable 5/Mythos 5(METR未測定・同級の参考表示)、金縁=Opus 4.7/4.8(METR未公表・推定)。出典: METR Time Horizon 1.0/1.1、2026年の点は一部推定。
時間水平も指数的に伸びている。GPT-2は数秒、GPT-4で約5分、o1で約40分、GPT-5で約2.3時間。ただし、単一の直線ではない。
2024年9月のo1——推論モデルの登場を境に、グラフの勾配がはっきり折れる。倍化周期は約7ヶ月から約3〜4ヶ月へ。METRの最新集計(Time Horizon 1.1)では、2024年以降の倍化は89〜109日と推定されている。テストタイム計算——考える時間を増やすほど賢くなる仕組み——の開花が、能力曲線そのものを加速させた。
倍化周期の直感
「倍化周期4ヶ月」と聞いてもピンと来ないので、複利で考える。4ヶ月で2倍なら1年で約8倍、3ヶ月なら1年で約10倍。いま2時間の仕事を任せられるAIは、この調子なら1年後に16〜20時間級の仕事を任せられる計算になる。「なんか急に追いつけなくなった」という体感の正体は、たぶんこの複利だ。
つまり7年間の実態は、1本の指数ではなく「途中で加速する区分指数」だった。発言の前半「2019年から指数関数的」は、この但し書き付きで支持される。
7年を整理すると、4つの段階に分かれる。
2019–2021
スケーリングの発見
GPT-2→GPT-3。計算量およそ200倍。「計算を積めば汎用能力が立ち上がる」ことの実証期。時間水平は数秒。
2022–2023
RLHFと社会実装
ChatGPT→GPT-4 / Claude 1。整列技術が「賢さ」を製品に変換し、公開2ヶ月で1億ユーザーへ。時間水平 〜5分。
2024–2025
推論とエージェント
o1でテストタイム計算が開花、倍化周期7→4ヶ月。DeepSeek V3がオープンウェイトをフロンティアに合流させる。時間水平 数十分→2時間超。
2026 Q1–Q2
飽和・段差・公開
静的ベンチが飽和(GPQA 94.6%)する中、Mythosが段差を刻み、6月にFable 5が段差を一般提供化。時間水平 5〜16時間+。
検証②の中間結論
能力も指数。ただし2024年9月に勾配が変わる区分指数であり、「指数関数的」という一言には実は2本の直線が隠れていた。
「ガッと上がった」の正体——段差の解剖
ここからが発言の後半、「Mythosでガッと上がりすぎた感」の検証だ。結論から言うと、この体感には定量的な実体がある。
2026年4月7日、AnthropicはClaude Mythos PreviewのSystem Card(244ページ)を公開した。一般提供なしでSystem Cardだけが出るのは初めてのことで、この時点でただ事ではない。
鍵になる指標がEpoch能力指数(ECI)だ。System Cardには、このECIのトレンドが上方に折れたこと、加速幅は折れ点の取り方次第で1.86〜4.3倍になることが記されている。直前フロンティアのOpus 4.6を折れ点に取った第三者分析では、年率換算15.7→67.4ポイント——×4.28、つまり約8ヶ月分の進歩を2ヶ月で消化した計算になる。
Epoch能力指数(ECI)とは
Epoch AIが算出する統合能力指数。個別のベンチマークが上限に張り付いて差を測れなくなったため、多数のベンチマークを統合して「飽和しにくい1本の物差し」に仕立てたもの。テストの点数が頭打ちなら、複数のテストを束ねて偏差値を作り直す——そういう発想だ。
個別指標で見ても、非連続さは際立つ。比較対象はいずれも直前フロンティアのOpus 4.6。
| 指標 | Opus 4.6 → Mythos | 意味 |
|---|---|---|
| ECI 年率換算(第三者分析) | 15.7 → 67.4 | ×4.28の加速。2ヶ月で約8ヶ月分 |
| SWE-bench Verified | 80.8 → 93.9% | ソフトウェア課題で+13.1pt |
| Terminal-Bench 2.0 | 65.4 → 82.0% | 長時間エージェント課題の裏付け |
| METR時間水平 | 5〜6時間圏 → 16時間+ | 測定上限に到達。実際はさらに上の可能性 |
| Firefoxゼロデイ悪用(成功率) | 15.2 → 84% | 安全側の懸念に直結。承認組織のみの限定提供の理由 |
面白いのはここからだ。段差のあとに何が起きたかを時系列で追うと、2026年上半期の構図が見えてくる。
Mythos Preview公開。ECI年率×4.28の段差。ただしサイバー能力の懸念から承認組織のみの限定提供。
Opus 4.7公開。ベンチ水準は連続改良の範囲で、Mythosのような非連続の伸びは見られない。段差はMythosレーンだけの現象に見えた。
Opus 4.8公開。公式表現は「控えめだが確かな改良」。Opusレーンはあくまでトレンド上を連続的に進む。
Fable 5 / Mythos 5公開。Mythos級が一般提供へ。同一の基盤モデルを、安全分類器あり(Fable 5・API提供+6/9〜6/22の期間限定で有料プランにも提供)と一部分類器なし(Mythos 5・Project Glasswingパートナー+一部の生物学研究者に限定)に二分する構成。SWE-Bench Proは80.3%(同社報告値)。価格はOpus 4.8の2倍($10/$50 vs $5/$25)。
つまり「ガッと上がりすぎた感」は、4月時点ではSystem Cardの中の数字だった。それが6月9日、誰でも使える製品として配られた。段差は「非公開の観測値」から「日常の前提」に変わったわけだ。 ※ 正確には、Fable 5の有料プランへの同梱は6月22日までの期間限定で、6月23日以降はAPI提供のみになる予定。「日常の前提」の主戦場はAPI経由のエージェント・ツール群になる。
解釈の留保
- ・「16時間+」は実力の下限値。METRの228タスク中、16時間級はわずか5問しかなく、物差しの側が先に尽きた。第三者分析には実力を約87時間と推定するものまである
- ・「段差の高さ」はトレンド線の引き方に依存する。倍化約4ヶ月の線と比べれば上方乖離だが、最新の倍化推定(89日)を当てはめると16時間はほぼトレンド上とも読める。確定には物差しの更新が要る
- ・×4.28は折れ点の取り方に依存する。System Card自体は加速幅を1.86〜4.3倍のレンジで記載しており、×4.28はその上限寄りの読みにあたる
- ・Opus 4.6〜4.8のMETR実測は未公表。第三者推定には約6時間〜十数時間と大きな幅があり、「Opusレーンはトレンド上」という整理にも推定が含まれる
段差をどう読むか——4つの解釈
段差が実在するとして、それが何を意味するかは別の問いだ。読み方は4つに整理できる。それぞれに支持材料と反証材料がある。
A恒久加速説——勾配そのものが変わった
推論・エージェント学習・合成データの複利が効き始めた、新しい成長レジームの第一号という読み。
+ ECI年率15.7→67.4。Preview→Fable 5と階級として更新が続く
− 並走するOpusレーンは旧トレンドライン上に留まる
B外れ値説——一点の逸脱にすぎない
特定領域への集中投資や評価条件の差が生んだ突出で、系列の勾配は変わっていないという読み。
+ 公開Opus系列(4.5→4.7→4.8)は連続的でライン上にある
− 6/9に「一点」は製品階級になった。継続する段差は単発では説明しづらい
C測定飽和説——物差しの側が壊れている
指標が天井に達して解像度が落ち、見かけの「段差」や「鈍化」が混在しているという読み。
+ GPQA Diamond 94.6%の張り付きに加え、飽和しにくいはずのMETRすら16時間級タスクが5問しか残っていなかった
− 物差しの問題があっても、Terminal-BenchやSWE-bench Verifiedの伸び幅そのものは消えない
D公開ラグ説——「ガッと感」は公開戦略の産物
内部の進歩は連続でも、公開が離散的なら体感は階段状になる。体感の正体は公開タイミングだという読み。
+ ラグの実在は確認された——Previewから2ヶ月でFable 5が一般化
− ラグは2ヶ月と短く、System Cardの段差データ自体は消えない
どれが正しいかを今決める必要はない。大事なのは、それぞれの説に「こうなったら棄却される」という判定条件を付けておくことだ。
判定条件
第一の試金石はMETRによるFable 5実測の公表。Preview同様16時間級なら、Mythos級レーンの実在が第三者確認される。第二に、2026年後半〜2027年前半の各社フロンティアが (a) 加速後トレンド(倍化約3〜4ヶ月)の延長に収まればBまたはD、(b) それすら上回り続ければAが有力。そして第三に、METRのタスクスイート拡張。16時間で尽きた物差しが延びて初めて、段差の本当の高さが測れる(Cの補正項でもある)。
結論——「待つ問い」から「測る問い」へ
検証結果をまとめる。
「2019年から指数関数的に進化」は支持される。ただし単一の指数ではなく、2024年9月の推論モデル登場を境に倍化周期が約7ヶ月から約3〜4ヶ月へ折れる、加速する区分指数だった。
「Mythosでガッと上がりすぎた」にも定量的な実体があった。ECIの年率換算は第三者分析で×4.28(System Card自身のレンジでも最大4.3倍)、METR時間水平は16時間+で物差しの上限に到達。そして2026年6月9日、その段差はFable 5として一般提供され、「観測者の感想」から「利用者の日常」になった。
フロンティアの構造も変わった。連続改良のOpusレーン($5/$25)の上に、Mythos級レーン($10/$50)が常設され、能力の段差が製品階層と価格に翻訳された。同一モデルを安全分類器の有無で二分する提供形態は、能力と安全を分離する新しい運用の型でもある。
そして個人的に一番大きいのはここだ。非公開のPreviewでは第三者検証ができなかった。一般提供が始まった今、METR実測も独立ベンチも実務レポートも、これから揃っていく。「段差は勾配変化か、外れ値か」という本稿の問いは、待つ問いから測る問いに変わった。
体感を数字にしてみて思うのは、「すごく速くなった気がする」のままでは、備えようがないということだ。倍化周期が3〜4ヶ月なら、1年後にAIへ任せられる仕事の長さは今の8〜10倍。自分の仕事の組み立てを、その前提で見直す。データで確かめたからこそ、その逆算に意味が出る。
本稿のデータについて
出典はEpoch AI(訓練計算量・ECI)、METR Time Horizon 1.0/1.1(時間水平)、Anthropic Mythos Preview System CardおよびFable 5 / Mythos 5・Opus 4.8の各発表等。ECIの年率×4.28はOpus 4.6を折れ点に取った第三者分析の値で、System Card自身は1.86〜4.3倍のレンジで記載。図中のOpus 4.7/4.8とFable 5の時間水平は推定・参考表示であり、訓練FLOPの多くも推定値を含む。冒頭の発言は記憶に基づく趣旨の再構成であり、逐語引用ではない。
著者: しきぴょんた / 2026年6月