Fable 5の衝撃——他のLLMと、何が違うのか

“すごい”を、
何十件ならべても。
根は、一本だった。

2026年6月に出た Claude Fable 5 は、あちこちで「すごい」と言われている。ただ、その「すごい」がゲームにも論文にも金融にも数学にも散らばっていて、一件ずつ見ると 別々の能力の話 に見える。この記事は、その点の驚きを何十件も並べ直して、根っこが本当は何本あるのかを数えにいく試みだ。

この記事が答える問い

バラバラに“すごい”と言われるFable 5は、
他のLLMと、何が本質的に違うのか？

結論を先に置く。何十件の驚きは、たった一つの能力の裏返しだった——「文脈を丸ごと保ったまま、長く自走して、自分で見直す」力。3Dやゲームは、その力の 最もSNS映えする断面 にすぎない。他のLLMとの差は「機能がいくつ増えたか」ではなく、この 一本の根がどれだけ太くなったか にある——というのが、事例を並べ終えたあとに残った見立てだ。

ざっくり言うと

一人の職人が、料理も、大工仕事も、裁縫もこなす、という話に近い。三つの技は別々に見えるが、根っこは 「最後まで段取りを手放さず、途中で自分の粗を見つけて直せる集中力」 という一本だったりする。Fable 5で起きているのも、たぶんそれと同じ形だ。見えている技の数ではなく、その下の一本を見たほうが早い。

Ch.01

3Dがバズっている。でも入口だ

派手な断面に目を奪われる前に

Ch.02

能力① 手を離しても、止まらない

賢さより、持久力

Ch.03

能力② “できた”の前に、自分で直す

暴走させない秘密

Ch.04

能力③ 丸ごと覚えたまま、扱える

3Dが上手い本当の理由

Ch.05 — Figure

三つの点は、一本の幹だった

収束を1枚で見る

Ch.06

結局、他のLLMと何が違うのか

機能の数ではなく、幹の太さ

Ch.07

ただし、万能じゃない

高い・遅い・放置で詰まる

Chapter 01

3Dがバズっている。
でも、それは入口だ

ざっくり言うと——SNSで真っ先に流れたのは3Dやゲームの動画だった。派手で分かりやすい。ただ、3Dだけ見て「絵がうまいモデル」と受け取ると、芯を外す。

Fable 5が公開されて、タイムラインにまず流れてきたのは 3Dの動画 だった。「1プロンプト投げて席を立って、戻ったら3Dゲームが2本できていた」という開発者のレビュー。ブラウザで動く広大な3D世界。13分でインタラクティブな3Dサイトが一発生成された、という実況。どれも動画映えするし、「これはすごい」と一目で分かる。

気持ちは分かる。立体が絡む生成は、これまでのLLMがいちばん苦手にしていた領域で、そこが派手に動くと目を奪われる。ただ、ここで一度立ち止まったほうがいい。3Dだけを見て「絵や立体がうまくなったモデルなんだね」で片付けると、いちばん大事なところを取りこぼす。

というのも、同じ時期に流れてきた「すごい」は、絵とはまるで関係ない場所でも一斉に上がっていたからだ。金融の分析ベンチマークで首位。数学の形式証明で専用のソルバーを上回った、という報告。法務の契約レビュー、200ページの決算書の読み解き、そして大規模なコードの全面移行を一日で——。絵の話ではない領域が、同時に、横並びで跳ねている。

だとすると、3Dは原因ではなく結果のほうだ。何かもっと下のレイヤーで一段跳んだ能力があって、その最も見えやすい出力が、たまたま3Dだった——そう考えるほうが筋が通る。この記事は、その「下のレイヤー」を名指しするために、驚きの束を三つに分けて開けていく。

Chapter 02

能力①
手を離しても、止まらない

ざっくり言うと——他のLLMとの一番の違いは「賢さ」より「持久力」だ。人が横で見張らなくても、何時間も走り続けてタスクを最後まで運ぶ。

Anthropicが製品ページで前面に出しているのは、賢さの自慢ではなく 「長く走れること」 だ。曰く、これまでのモデルが続けられなかったような、長時間・非同期の難しい仕事に向いている。エージェント（人が逐一指示しなくても自分でタスクを進めるAI）が、ほとんど監督なしで動き続けられる、と。

具体例で言うと、決済基盤のStripeが早期テストで 5000万行のコードの全面移行を一日で 終えた、という報告がある（人手なら二ヶ月超の見積もりだった、と添えられている）。開発ツールのCursorは「以前は手が届かなかった、長時間かかる問題のクラスが開いた」と評した。冒頭の「席を立って戻ったら完成していた」も、絵の話というより この持久力の話 だ。

ここが、従来のLLMとはっきり違う。これまでのモデルは、短いやり取りなら賢いのに、タスクが長くなると 途中で迷子になった。目的を見失い、前に決めたことを忘れ、同じところをぐるぐる回る。だから人間が細かく区切って、一歩ごとに手綱を握る必要があった。Fable 5は、その手綱を握る間隔がぐっと長くなった、というのが評判の芯にある。

以前「AIは指数関数的に進化してる」は本当かで、AIが人の介入なしにタスクを継続できる「時間の長さ」が伸び続けている、という指標（METRの時間水平）を紹介した。乱暴に言えば、Fable 5はその水平線をもう一段引き上げた側にいる。持久力は、地味だが、いちばん効く違いだ。

Chapter 03

能力②
“できた”の前に、自分で直す

ざっくり言うと——ただ止まらないだけなら、暴走する。長く走れる本当の秘密は、「完成」と言う前に自分で点検して直す、という性質のほうにある。

持久力だけを聞くと、危うさを感じるはずだ。手を離して長く走るなら、間違ったまま遠くまで行ってしまうんじゃないか、と。その不安に答えるのが二つ目の能力——自己検証 だ。走りながら、自分の出力を自分で点検して、粗を見つけたら直す。

分かりやすい例が、公開されている3D世界のデモだ。作ったモデルは、指示されていないのに 自分で世界を起動し、スクリーンショットを撮り、前の画面との差分を見て、バグを見つけたら回帰テストを書く——という品質チェックの一連を自分で回していた。「完成しました」と報告する前に、自分で動かして確かめている。

もっと極端な報告もある。ある調査系の用途で使った人によると、Fable 5は 全体で使ったトークン（AIが処理する言葉の最小単位）の、およそ半分を「検証」に費やしていたという。頼んでもいないのに、自分の出した結論を裏取りするほうに手間の半分を回していた、というわけだ。ネット由来の一報告なので鵜呑みにはできないが、傾向としては他の事例とも噛み合う。

従来のLLMとの分かれ目

従来型：言われた通りに出力して、“できました”で止まる
Fable 5：出力してから、自分で動かして、違ったら直す

この一手間があるかないかで、長時間タスクの信頼度がまるで変わる。止まらない（能力①）が暴走にならないのは、この見直し（能力②）が効いているから、と読める。

これは、以前「次の単語を選んでいるだけ」の先にあるもので書いた話ともつながる。AIの理解にはムラがあって、何が伸びるかは「答え合わせができるかどうか（検証可能性）」で決まる、という論だ。自分で答え合わせを回せる領域ほど、モデルは伸びる。Fable 5は、その答え合わせを 外の人間ではなく、自分の内側で回し始めた——そう見ると、この自己検証は能力①と地続きになる。

Chapter 04

能力③
丸ごと覚えたまま、扱える

ざっくり言うと——3Dシーンも巨大なコードも200ページの決算書も、丸ごと頭に入れたまま意味のある操作ができる。3Dが上手いのは、実はこの能力の副産物だ。

三つ目は、大きな構造を 丸ごと保持したまま扱える こと。ここでようやく3Dの話に戻れる。Anthropicの公表では、Fable 5は 空間推論（立体の位置関係を頭の中で扱う力）のスコアが前世代のOpusのおよそ3倍 に跳ねた。しかも空間推論は、前世代がいちばん苦手にしていた軸だ。苦手だった場所が、いちばん派手に伸びた。

この力は、絵に限らない。スクリーンショットだけを見せて、元のコードなしに Webアプリのソースを丸ごと組み直す。密度の高い科学の図から数値を正確に読み取る。決算書や10-K（米国企業の年次報告書）を、単に文字を「抽出」するのではなく、表やチャートの意味を「推論」して読む。小説の読み手のコミュニティでは、「重厚な世界観を、断片に分けて渡さなくても丸ごと理解できた初のLLMだ」 という評も出ていた。

ここが勘所だ。3Dが上手いのは、絵心があるからではない。立体の構造を、崩さず頭の中に保持したまま操作できるからだ。そして同じ力は、決算書の構造にも、巨大なコードベースの構造にも、小説の設定の構造にも、そっくりそのまま効く。出力先が違うだけで、使っている筋肉は同じ。「構造を丸ごと保持する」という一つの力が、たまたま3Dで最も目に見える形になっていた、というだけの話だ。

見落としがちな点

「3Dがすごい」と「決算書が読める」を別々のニュースとして消費すると、この共通の筋肉が見えなくなる。派手な出力ほど、下の能力を隠す。3Dは、いちばん目立つがゆえに、いちばん誤解されやすい断面でもある。

Chapter 05 — Figure

三つの点は、
一本の幹だった

ざっくり言うと——①長く自走する ②自分で見て直す ③丸ごと保持する。三つは別々の機能に見えて、一本の幹から出た枝だった。3Dも金融も、その先に生った葉にすぎない。

ここまでの話を1枚にまとめる。上に散らばっているのが、SNSやレビューで飛び交った 何十件もの「すごい」。それを辿ると 三つの能力 に束ねられ、さらにその三つが 一本の根 に収束する——という見立ての図だ。

上から下へ読む。てっぺんに散らばる葉（個々の「すごい」）は、真ん中の三つの枝（能力①②③）に束ねられ、その三つは根元で 一本の幹 に合流する。逆に言えば、幹が太くなったから、枝も葉も一斉に茂った。ニュースは葉を一枚ずつ数えるが、跳ねたのは幹のほうだ。

この図がいちばん言いたいのは、「3Dがすごい」「金融がすごい」を別々の進化として数えると、本体を見失うということだ。増えたのは葉の枚数ではなく、幹の太さ。次の章で、その幹が他のLLMと何を分けているのかを、正面から言葉にする。

Chapter 06

結局、他のLLMと
何が違うのか

ざっくり言うと——違いは「3Dが描ける」でも「visionが強い」でもない。文脈を保ったまま長く走り、自分で見直す、という一本が太くなった。そしてそれは、“考える時間を長く取る”推論モデルの系譜で伸びた。

ここで問いに正面から答える。他のLLMとの違いは、機能を一つずつ比べる話ではない。「文脈を丸ごと保ったまま、長く自走して、自分で見直す」——この一本が、他より太い。それだけだ。3Dもvisionも金融も、この一本から派生した出力にすぎない。だから比較表を機能ごとに眺めても、差の正体には届かない。

もう一つ大事なのは、この跳躍が どこから来たか だ。派手な3Dに引っ張られると「新しい画像の仕組みが載ったのかな」と思いがちだが、たぶん違う。効いているのは、o1以降に広がった “推論モデル”の系譜——答えを出す前に、内側で考える時間を長く取るタイプのモデル——の延長線だ。長く考え、長く走り、その間に自分で検算する。その筋力が上がった副産物として、3Dも決算書も伸びた。

この見方は、以前 AIエージェントは「誰が」動かしているのかで書いた話と、きれいに裏返しになる。あの記事では 「エージェントらしさは、モデルではなく外側のハーネス（AIを繰り返し呼んで計画・検証・継続をさせる仕組み）に宿る」 と論じた。ところがFable 5は、そのハーネスがやっていた仕事の一部——計画を保つ・検証する・走り続ける——を、モデルの内側に飲み込み始めたように見える。

一行でいうと

これまで外の足場（ハーネス）が肩代わりしていた自律を、
モデル自身が中に取り込み始めた。

だから、同じ足場に載せても一段深く走る。逆に、足場の設計で無理やり底上げしていたぶんが、モデル側に移った、とも言える。賢さの置き場所が動いた、という話だ。

もっとも、これは 筆者の見立て であって、Anthropicが「推論モデルの系譜だ」と公式に整理しているわけではない。ただ、事例を並べ直して残る絵としては、いちばん座りがいい。機能の多面体に見えたものが、一本の幹の断面だった——そう捉えると、バラバラの「すごい」が一度に腑に落ちる。

Chapter 07

ただし、
万能じゃない

ざっくり言うと——幹が太い代わりに、高くて遅い。デザインや仕様書は苦手で、放置すると詰まる。全部のベンチで勝つわけでもない。ここを外すと、ただの提灯記事になる。

ここまで「すごい」を並べてきたが、幻滅しないために弱点も同じ熱量で置いておく。事例集を作っていて、むしろこの章がいちばん実務に効く、とも思う。

高い・遅い。 料金は前世代より明確に上で、公表では入力100万トークンあたり$10・出力$50（よく使う文脈を再利用するprompt cachingで最大9割引、という条件付き）。長く考えるぶん、大食いで遅い。ネットには「一日で$110使った」といった報告もある。軽い作業に回すと、コストも待ち時間も割に合わない。ちょっとした用事はOpusやSonnetのほうが有利、という使い分けはむしろ前提になる。

デザインと仕様書は苦手。 実務者のレビューでは、ワンショットで出すUIデザインは「かなり下手」、仕様書やPRD（製品要件のドキュメント）は「エージェントがエージェントに向けて書いた文章」みたいで人には読みづらい、という声がある。得意なのはあくまで 長く走って作り切る 側で、人向けの見せ方や短い一発仕事は、別のモデルに戻したほうがいい場面が多い。

放置すると詰まる。 自律が売りとはいえ、丸投げが効くわけではない。「三時間放置したらサブエージェント（親から枝分かれした作業役のAI）が止まっていた」という報告もある。長く走らせるほど、ゴールと“何をもって完成とするか”の基準を先に渡しておくことが要る。手綱の間隔が伸びただけで、手綱そのものが要らなくなったわけではない。

全勝ではない。 Anthropicは「テストしたほぼ全ベンチでSOTA（最高性能）」と打ち出したが、これは主に同社の公表値と提携先の評価に基づくもので、独立検証はまだ進行中だ。難問系の数学ベンチや一部の実務評価では、他社モデルのほうが上、という整理も出ている。加えて、サイバーセキュリティや生物・化学に触れる質問では、安全のために応答が自動でOpus 4.8へ切り替わる（この切り替えは平均で全セッションの5%未満、と説明されている）。「なんでも一番」ではなく、「長く走る仕事で一番手」、くらいが実像に近い。

使い分けの目安

長時間・多段・作り切りが要る仕事 → Fable 5。
短い用事・下書き・UIの見た目・コスト重視 → Opus / Sonnet。
太い幹は、太いぶんだけ燃費が悪い。得意な一本にだけ使うのが正解だ。

Coda

点の驚きを、
何十件ならべても。
根はいつも、一本だった。

文脈を丸ごと保ち、長く走り、自分で見直す——
Fable 5の“違い”は、機能の数ではなくその一本の太さにあった。
3Dもゲームも、いちばん見えやすい断面だっただけだ。

この記事の元になったのは、60以上の実例を集めて眺めていた自分用のメモだった。一件ずつは「へえ」で流れていくのに、並べ直した瞬間に根が一本に見えたのが面白くて、そのまま書き起こした。良い事例集は、事例そのものより、並べ終えたあとに立ち上がる形のほうに本体がある。実際に触り込んでいる人ほど肌感は違うはずなので、「その一本の見立ては違う」という反論があれば、ぜひ聞かせてほしい。

Fact-check

Claude Fable 5 は2026年6月にAnthropicが公開した実在のモデル（Mythos級を一般提供向けに調整した位置づけ）。主要な数値・固有名詞は、到達確認できた一次・準一次ソースで裏を取った：モデルの位置づけ・自律運用・Stripeの大規模移行・vision関連の主張・料金（入力$10／出力$50）・安全時のOpus 4.8フォールバック（平均5%未満）は Anthropicの発表に、prompt cachingで最大90%割引となる点は Fable製品ページに基づく。SWE-Bench Pro 80.3%（Opus 4.8は69.2%）など各ベンチの数値と「ほぼ全ベンチでSOTA」の位置づけは Vellumのベンチ解説・Vals AIの独立評価・VentureBeatの報道で確認した（一次のAnthropic公表値＋独立系メディア／評価を突き合わせる形で選んだ）。空間推論の約3倍・自己検証の割合・「$110/日」「三時間で停止」などの体感値・弱点評は、公表値ではなく開発者レビューやSNS上の個別報告に由来するため、本文では出所を「ネットの事例」「ある報告」と明示し、断定を避けた。「何十件の驚きが一本の能力に収束する」「推論モデルの系譜」という整理は外部調査ではなく 筆者の見立て なので、実際に使い込んでいる読者の肌感と異なる読みがあれば、反論を歓迎する。数値は主にAnthropicのローンチ公表と提携先評価が中心で、独立検証は現在進行中である点も付記しておく。

3Dがバズっている。でも、それは入口だ

能力①手を離しても、止まらない

能力②“できた”の前に、自分で直す

能力③丸ごと覚えたまま、扱える