One Capability · Many Faces

“すごい”を60件ならべて分かった、たった一つの根 Fable 5は、何が
違うのか

ゲームも、論文も、金融も、数学も。
バラバラに『すごい』と騒がれるこのモデルの驚きを、
並べ直すと、一本の根に収束する。

2026年7月 読了 約12分 AIの進化が気になる人へ

“すごい”を、
何十件ならべても。
根は、一本だった。

2026年6月に出た Claude Fable 5 は、あちこちで「すごい」と言われている。ただ、その「すごい」がゲームにも論文にも金融にも数学にも散らばっていて、一件ずつ見ると 別々の能力の話 に見える。この記事は、その点の驚きを何十件も並べ直して、根っこが本当は何本あるのかを数えにいく試みだ。

この記事が答える問い

バラバラに“すごい”と言われるFable 5は、
他のLLMと、何が本質的に違うのか?

結論を先に置く。何十件の驚きは、たった一つの能力の裏返しだった——「文脈を丸ごと保ったまま、長く自走して、自分で見直す」力。3Dやゲームは、その力の 最もSNS映えする断面 にすぎない。他のLLMとの差は「機能がいくつ増えたか」ではなく、この 一本の根がどれだけ太くなったか にある——というのが、事例を並べ終えたあとに残った見立てだ。

ざっくり言うと

一人の職人が、料理も、大工仕事も、裁縫もこなす、という話に近い。三つの技は別々に見えるが、根っこは 「最後まで段取りを手放さず、途中で自分の粗を見つけて直せる集中力」 という一本だったりする。Fable 5で起きているのも、たぶんそれと同じ形だ。見えている技の数ではなく、その下の一本を見たほうが早い。

Chapter 01

3Dがバズっている。
でも、それは入口だ

ざっくり言うと——SNSで真っ先に流れたのは3Dやゲームの動画だった。派手で分かりやすい。ただ、3Dだけ見て「絵がうまいモデル」と受け取ると、芯を外す。

Fable 5が公開されて、タイムラインにまず流れてきたのは 3Dの動画 だった。「1プロンプト投げて席を立って、戻ったら3Dゲームが2本できていた」という開発者のレビュー。ブラウザで動く広大な3D世界。13分でインタラクティブな3Dサイトが一発生成された、という実況。どれも動画映えするし、「これはすごい」と一目で分かる。

気持ちは分かる。立体が絡む生成は、これまでのLLMがいちばん苦手にしていた領域で、そこが派手に動くと目を奪われる。ただ、ここで一度立ち止まったほうがいい。3Dだけを見て「絵や立体がうまくなったモデルなんだね」で片付けると、いちばん大事なところを取りこぼす

というのも、同じ時期に流れてきた「すごい」は、絵とはまるで関係ない場所でも一斉に上がっていたからだ。金融の分析ベンチマークで首位。数学の形式証明で専用のソルバーを上回った、という報告。法務の契約レビュー、200ページの決算書の読み解き、そして大規模なコードの全面移行を一日で——。絵の話ではない領域が、同時に、横並びで跳ねている

だとすると、3Dは原因ではなく 結果 のほうだ。何かもっと下のレイヤーで一段跳んだ能力があって、その最も見えやすい出力が、たまたま3Dだった——そう考えるほうが筋が通る。この記事は、その「下のレイヤー」を名指しするために、驚きの束を三つに分けて開けていく。

Chapter 02

能力①
手を離しても、止まらない

ざっくり言うと——他のLLMとの一番の違いは「賢さ」より「持久力」だ。人が横で見張らなくても、何時間も走り続けてタスクを最後まで運ぶ。

Anthropicが製品ページで前面に出しているのは、賢さの自慢ではなく 「長く走れること」 だ。曰く、これまでのモデルが続けられなかったような、長時間・非同期の難しい仕事に向いている。エージェント(人が逐一指示しなくても自分でタスクを進めるAI)が、ほとんど監督なしで動き続けられる、と。

具体例で言うと、決済基盤のStripeが早期テストで 5000万行のコードの全面移行を一日で 終えた、という報告がある(人手なら二ヶ月超の見積もりだった、と添えられている)。開発ツールのCursorは「以前は手が届かなかった、長時間かかる問題のクラスが開いた」と評した。冒頭の「席を立って戻ったら完成していた」も、絵の話というより この持久力の話 だ。

ここが、従来のLLMとはっきり違う。これまでのモデルは、短いやり取りなら賢いのに、タスクが長くなると 途中で迷子になった。目的を見失い、前に決めたことを忘れ、同じところをぐるぐる回る。だから人間が細かく区切って、一歩ごとに手綱を握る必要があった。Fable 5は、その手綱を握る間隔がぐっと長くなった、というのが評判の芯にある。

以前 「AIは指数関数的に進化してる」は本当か で、AIが人の介入なしにタスクを継続できる「時間の長さ」が伸び続けている、という指標(METRの時間水平)を紹介した。乱暴に言えば、Fable 5はその水平線をもう一段引き上げた側にいる。持久力は、地味だが、いちばん効く違いだ

Chapter 03

能力②
“できた”の前に、自分で直す

ざっくり言うと——ただ止まらないだけなら、暴走する。長く走れる本当の秘密は、「完成」と言う前に自分で点検して直す、という性質のほうにある。

持久力だけを聞くと、危うさを感じるはずだ。手を離して長く走るなら、間違ったまま遠くまで行ってしまうんじゃないか、と。その不安に答えるのが二つ目の能力——自己検証 だ。走りながら、自分の出力を自分で点検して、粗を見つけたら直す。

分かりやすい例が、公開されている3D世界のデモだ。作ったモデルは、指示されていないのに 自分で世界を起動し、スクリーンショットを撮り、前の画面との差分を見て、バグを見つけたら回帰テストを書く——という品質チェックの一連を自分で回していた。「完成しました」と報告する前に、自分で動かして確かめている。

もっと極端な報告もある。ある調査系の用途で使った人によると、Fable 5は 全体で使ったトークン(AIが処理する言葉の最小単位)の、およそ半分を「検証」に費やしていたという。頼んでもいないのに、自分の出した結論を裏取りするほうに手間の半分を回していた、というわけだ。ネット由来の一報告なので鵜呑みにはできないが、傾向としては他の事例とも噛み合う。

従来のLLMとの分かれ目

従来型:言われた通りに出力して、“できました”で止まる
Fable 5:出力してから、自分で動かして、違ったら直す

この一手間があるかないかで、長時間タスクの信頼度がまるで変わる。止まらない(能力①)が暴走にならないのは、この見直し(能力②)が効いているから、と読める。

これは、以前 「次の単語を選んでいるだけ」の先にあるもの で書いた話ともつながる。AIの理解にはムラがあって、何が伸びるかは「答え合わせができるかどうか(検証可能性)」で決まる、という論だ。自分で答え合わせを回せる領域ほど、モデルは伸びる。Fable 5は、その答え合わせを 外の人間ではなく、自分の内側で回し始めた——そう見ると、この自己検証は能力①と地続きになる。

Chapter 04

能力③
丸ごと覚えたまま、扱える

ざっくり言うと——3Dシーンも巨大なコードも200ページの決算書も、丸ごと頭に入れたまま意味のある操作ができる。3Dが上手いのは、実はこの能力の副産物だ。

三つ目は、大きな構造を 丸ごと保持したまま扱える こと。ここでようやく3Dの話に戻れる。Anthropicの公表では、Fable 5は 空間推論(立体の位置関係を頭の中で扱う力)のスコアが前世代のOpusのおよそ3倍 に跳ねた。しかも空間推論は、前世代がいちばん苦手にしていた軸だ。苦手だった場所が、いちばん派手に伸びた。

この力は、絵に限らない。スクリーンショットだけを見せて、元のコードなしに Webアプリのソースを丸ごと組み直す。密度の高い科学の図から数値を正確に読み取る。決算書や10-K(米国企業の年次報告書)を、単に文字を「抽出」するのではなく、表やチャートの意味を「推論」して読む。小説の読み手のコミュニティでは、「重厚な世界観を、断片に分けて渡さなくても丸ごと理解できた初のLLMだ」 という評も出ていた。

ここが勘所だ。3Dが上手いのは、絵心があるからではない。立体の構造を、崩さず頭の中に保持したまま操作できるからだ。そして同じ力は、決算書の構造にも、巨大なコードベースの構造にも、小説の設定の構造にも、そっくりそのまま効く。出力先が違うだけで、使っている筋肉は同じ。「構造を丸ごと保持する」という一つの力が、たまたま3Dで最も目に見える形になっていた、というだけの話だ。

見落としがちな点

「3Dがすごい」と「決算書が読める」を別々のニュースとして消費すると、この共通の筋肉が見えなくなる。派手な出力ほど、下の能力を隠す。3Dは、いちばん目立つがゆえに、いちばん誤解されやすい断面でもある。

Chapter 05 — Figure

三つの点は、
一本の幹だった

ざっくり言うと——①長く自走する ②自分で見て直す ③丸ごと保持する。三つは別々の機能に見えて、一本の幹から出た枝だった。3Dも金融も、その先に生った葉にすぎない。

ここまでの話を1枚にまとめる。上に散らばっているのが、SNSやレビューで飛び交った 何十件もの「すごい」。それを辿ると 三つの能力 に束ねられ、さらにその三つが 一本の根 に収束する——という見立ての図だ。

— 60以上の“すごい”(葉) — 3D・Web ゲーム 論文・執筆 金融・分析 数学・法務 能力① 長く自走する 手を離しても止まらない 能力② 自分で見て直す “できた”前に点検する 能力③ 丸ごと保持する 立体・文脈を崩さない THE ROOT — 一つの根 文脈を丸ごと保ったまま、 長く走り、自分で見直す。 3Dもゲームも金融も、すべてこの一本から伸びた枝葉にすぎない。

上から下へ読む。てっぺんに散らばる (個々の「すごい」)は、真ん中の 三つの枝(能力①②③)に束ねられ、その三つは根元で 一本の幹 に合流する。逆に言えば、幹が太くなったから、枝も葉も一斉に茂った。ニュースは葉を一枚ずつ数えるが、跳ねたのは幹のほうだ。

この図がいちばん言いたいのは、「3Dがすごい」「金融がすごい」を別々の進化として数えると、本体を見失うということだ。増えたのは葉の枚数ではなく、幹の太さ。次の章で、その幹が他のLLMと何を分けているのかを、正面から言葉にする。

Chapter 06

結局、他のLLMと
何が違うのか

ざっくり言うと——違いは「3Dが描ける」でも「visionが強い」でもない。文脈を保ったまま長く走り、自分で見直す、という一本が太くなった。そしてそれは、“考える時間を長く取る”推論モデルの系譜で伸びた。

ここで問いに正面から答える。他のLLMとの違いは、機能を一つずつ比べる話ではない。「文脈を丸ごと保ったまま、長く自走して、自分で見直す」——この一本が、他より太い。それだけだ。3Dもvisionも金融も、この一本から派生した出力にすぎない。だから比較表を機能ごとに眺めても、差の正体には届かない。

もう一つ大事なのは、この跳躍が どこから来たか だ。派手な3Dに引っ張られると「新しい画像の仕組みが載ったのかな」と思いがちだが、たぶん違う。効いているのは、o1以降に広がった “推論モデル”の系譜——答えを出す前に、内側で考える時間を長く取るタイプのモデル——の延長線だ。長く考え、長く走り、その間に自分で検算する。その筋力が上がった副産物として、3Dも決算書も伸びた。

この見方は、以前 AIエージェントは「誰が」動かしているのか で書いた話と、きれいに裏返しになる。あの記事では 「エージェントらしさは、モデルではなく外側のハーネス(AIを繰り返し呼んで計画・検証・継続をさせる仕組み)に宿る」 と論じた。ところがFable 5は、そのハーネスがやっていた仕事の一部——計画を保つ・検証する・走り続ける——を、モデルの内側に飲み込み始めたように見える。

一行でいうと

これまで 外の足場(ハーネス) が肩代わりしていた自律を、
モデル自身 が中に取り込み始めた。

だから、同じ足場に載せても一段深く走る。逆に、足場の設計で無理やり底上げしていたぶんが、モデル側に移った、とも言える。賢さの置き場所が動いた、という話だ。

もっとも、これは 筆者の見立て であって、Anthropicが「推論モデルの系譜だ」と公式に整理しているわけではない。ただ、事例を並べ直して残る絵としては、いちばん座りがいい。機能の多面体に見えたものが、一本の幹の断面だった——そう捉えると、バラバラの「すごい」が一度に腑に落ちる。

Chapter 07

ただし、
万能じゃない

ざっくり言うと——幹が太い代わりに、高くて遅い。デザインや仕様書は苦手で、放置すると詰まる。全部のベンチで勝つわけでもない。ここを外すと、ただの提灯記事になる。

ここまで「すごい」を並べてきたが、幻滅しないために弱点も同じ熱量で置いておく。事例集を作っていて、むしろこの章がいちばん実務に効く、とも思う。

高い・遅い。 料金は前世代より明確に上で、公表では入力100万トークンあたり$10・出力$50(よく使う文脈を再利用するprompt cachingで最大9割引、という条件付き)。長く考えるぶん、大食いで遅い。ネットには「一日で$110使った」といった報告もある。軽い作業に回すと、コストも待ち時間も割に合わない。ちょっとした用事はOpusやSonnetのほうが有利、という使い分けはむしろ前提になる。

デザインと仕様書は苦手。 実務者のレビューでは、ワンショットで出すUIデザインは「かなり下手」、仕様書やPRD(製品要件のドキュメント)は「エージェントがエージェントに向けて書いた文章」みたいで人には読みづらい、という声がある。得意なのはあくまで 長く走って作り切る 側で、人向けの見せ方や短い一発仕事は、別のモデルに戻したほうがいい場面が多い。

放置すると詰まる。 自律が売りとはいえ、丸投げが効くわけではない。「三時間放置したらサブエージェント(親から枝分かれした作業役のAI)が止まっていた」という報告もある。長く走らせるほど、ゴールと“何をもって完成とするか”の基準を先に渡しておくことが要る。手綱の間隔が伸びただけで、手綱そのものが要らなくなったわけではない。

全勝ではない。 Anthropicは「テストしたほぼ全ベンチでSOTA(最高性能)」と打ち出したが、これは主に同社の公表値と提携先の評価に基づくもので、独立検証はまだ進行中だ。難問系の数学ベンチや一部の実務評価では、他社モデルのほうが上、という整理も出ている。加えて、サイバーセキュリティや生物・化学に触れる質問では、安全のために応答が自動でOpus 4.8へ切り替わる(この切り替えは平均で全セッションの5%未満、と説明されている)。「なんでも一番」ではなく、「長く走る仕事で一番手」、くらいが実像に近い。

使い分けの目安

長時間・多段・作り切りが要る仕事 → Fable 5
短い用事・下書き・UIの見た目・コスト重視 → Opus / Sonnet
太い幹は、太いぶんだけ燃費が悪い。得意な一本にだけ使うのが正解だ。

Coda

点の驚きを、
何十件ならべても。
根はいつも、一本だった。

文脈を丸ごと保ち、長く走り、自分で見直す——
Fable 5の“違い”は、機能の数ではなく その一本の太さ にあった。
3Dもゲームも、いちばん 見えやすい断面 だっただけだ。

この記事の元になったのは、60以上の実例を集めて眺めていた自分用のメモだった。一件ずつは「へえ」で流れていくのに、並べ直した瞬間に根が一本に見えたのが面白くて、そのまま書き起こした。良い事例集は、事例そのものより、並べ終えたあとに立ち上がる形のほうに本体がある。実際に触り込んでいる人ほど肌感は違うはずなので、「その一本の見立ては違う」という反論があれば、ぜひ聞かせてほしい。

Fact-check

Claude Fable 5 は2026年6月にAnthropicが公開した実在のモデル(Mythos級を一般提供向けに調整した位置づけ)。主要な数値・固有名詞は、到達確認できた一次・準一次ソースで裏を取った:モデルの位置づけ・自律運用・Stripeの大規模移行・vision関連の主張・料金(入力$10/出力$50)・安全時のOpus 4.8フォールバック(平均5%未満)は Anthropicの発表 に、prompt cachingで最大90%割引となる点は Fable製品ページ に基づく。SWE-Bench Pro 80.3%(Opus 4.8は69.2%)など各ベンチの数値と「ほぼ全ベンチでSOTA」の位置づけは Vellumのベンチ解説Vals AIの独立評価VentureBeatの報道 で確認した(一次のAnthropic公表値+独立系メディア/評価を突き合わせる形で選んだ)。空間推論の約3倍・自己検証の割合・「$110/日」「三時間で停止」などの体感値・弱点評は、公表値ではなく開発者レビューやSNS上の個別報告に由来するため、本文では出所を「ネットの事例」「ある報告」と明示し、断定を避けた。「何十件の驚きが一本の能力に収束する」「推論モデルの系譜」という整理は外部調査ではなく 筆者の見立て なので、実際に使い込んでいる読者の肌感と異なる読みがあれば、反論を歓迎する。数値は主にAnthropicのローンチ公表と提携先評価が中心で、独立検証は現在進行中である点も付記しておく。