「次の単語を選んでいるだけ」の先にあるもの

予測する対象が単純なことと、
中身の仕組みが単純なことは、
別物だ。

AIエージェントは目標を立て、計画し、改善しているように見える。なのに仕組みは「次に続く単語を選ぶ」だけ。落差の正体は、はっきりしている。「予測する対象が単純」と「中身の仕組みが単純」を、同じものとして扱っていたこと。この二つは別物だ。

この記事の主張

「次の単語予測」という単純な目標が、
内部に複雑な世界モデルを強制的に育てる。

ただしその理解はムラがあって脆く、何が実際に伸びるかは「正しさを自動で確かめられるか＝検証可能性」が決める。

過大評価
「動くのは魔法」過小評価
「ただの確率オウム」

較正

この記事の立ち位置は、どちらの極でもない。

以下は、その取り違えを解きほぐしていく三章の論証。各章は前の章の結論を前提に進む。

Ch.01

なぜ動くのか

単純な目標が複雑さを強制する

Ch.02

中で何が起きているか

部分的な世界モデルが実在する

Ch.03

何が伸びるのか

検証可能性が能力地図を引く

Chapter 01

単純な目標が、
複雑さを強制する

分厚いミステリーの最終行「犯人は◯◯だった」を当てる試験を想像する。範囲が狭ければ暗記でしのげる。だが問題が世界中の文章になると暗記では追いつかず、高得点を取り続ける唯一の道は、誰に動機があり誰に機会があったかを、物語として実際に追えるようになることだ。

これは比喩ではなく、文字どおりそうなっている。次の一語を正しく置くには、文脈を「理解」していないと確率を正しく配れない。

図 1 — 「単語当て」の中身は推論である

四人の容疑者のうち、犯行時刻にアリバイが無かったのは？？？

執事

0.41

庭師

0.27

医師

0.18

令嬢

0.10

この確率配分を出すには、前の数十ページで誰がどこにいたかを内部で追えている必要がある。表面のタスクは「次の単語」、それを解くために要る能力は「物語世界の追跡」。確率値はイメージ。

ここで効くのが冒頭の主張だ。目標の単純さは、それを達成する系の複雑さの上限を決めない。サーモスタットも「誤差を最小化する」という単純な目標で動くが、だからといって中身が単純とは限らない。狭い目標を本気で突き詰めた結果、文章の裏にある世界・因果・推論を圧縮した関数が育つ。圧縮とは、緩い意味での理解だ。

第1章の結論。単純な目標は、複雑な内部を「強制」する。——では、その「複雑な内部」は本当に在るのか。それとも巧妙な暗記を、こちらが理解と読み違えているだけか。

Chapter 02

中では、部分的な
世界モデルが動いている

オセロが示す「実在する内部モデル」

内部表現は「持っていそう」という印象ではなく、測れる実体がある。Othello-GPTが分かりやすい。オセロの棋譜（手の系列）だけで学習させ、ルールも盤面も一切教えない。なのにプローブ（内部の状態を外から読み取る検査）で、内部から盤面の状態を復元できる。しかも相関ではなく因果だ。

図 2 — 内部の盤面を書き換えると、予測が変わる

書き換え前

内部の1マスを書き換えると…

書き換え後

自分の石相手の石 ★予測した次手

入力（手の系列）は両者で同じ。内部に復元された盤面の1マス（破線）を外科的に書き換えるだけで、モデルの次手（★）が別の場所へ動く。＝その内部の盤面は、飾りではなく予測に「使われている」。報告された介入実験の模式図。

耳で棋譜だけを覚えた人が、頭の中に勝手に盤を描いていて、その駒を一つ消すと打つ手が変わる——そういうことだ。「持っているように見える」より一段強い、陽性の証拠になっている。

それでも「眉唾だ」と感じる勘も、正しい。この内部モデルは部分的で脆い。本物の表現を作る一方でショートカット（手抜きの近道）にも頼り、学習で見たパターンから外れた入力では崩れる。8割を深く理解し、残り2割を雰囲気で当てている学生のようなもので、外からは見分けづらい。理解はゼロではないが、ムラがあって不均一だ。ただしOthelloは統制された玩具ドメインで、これがそのまま巨大モデルの「理解」の証明になるわけではない。機構が原理的に成立する証拠＋スケールでの示唆、が正確な重み付けになる。

誤解

「全部わかっている」か「全部ハッタリ」か、のどちらか一方。

較正

構造化された内部モデルは現に存在する。論点はその範囲・頑健性・「理解」と呼ぶべきか、であって、存在の有無ではない。

なぜムラがあるのか——「現実とのつながり」の限界

「世界モデルを与えていないから現実を解けない」という言い方には、枠組みの取り違えがある。誰も世界モデルを与えたり外したりしていない。あるとすれば学習から創発したもので、誰かが入れ忘れた入力ではない。世界モデルは挿し込む部品ではなく、書いているうちにできるペンだこに近い。

正当な批判の核は「未付与」ではなく、グラウンディング（現実との地続きさ）の欠如だ。テキストは世界の劣化した投影で、モデルが学ぶのは現実そのものではなく「現実の記述の統計」。水泳の本を世界中ぜんぶ読んだ人のようなもので、めちゃくちゃ詳しく専門家の発言も予測できるが、水に入らないと埋まらない隙間が残る。第2章で見た「ムラ」の形は、これで説明がつく——物理・身体・「やってみないと分からない因果」で、隙間が深くなる。

では「エージェント」は、どこにいるのか

ここで冒頭の落差に正面から答える。モデル自体はループしないし、目標も立てない。モデルはステートレスな関数——呼ぶたびに記憶ゼロからやり直し——で、文脈を入れると次トークンの確率分布が出る、それだけだ。記憶も、持続的な目標も、呼び出しの合間に自分で動く能力もない。「計画→実行→観察→改善」を回しているのは、モデルの周りに普通のコードで組んだ足場（ハーネス）のほうだ。

図 3 — 関数は1つ。ループは外側にある

Claude Code を使うとき、Lambda で朝刊エージェントを回すとき、このループを書いているのは自分自身だ。モデルの寄与は各ステップの「次の一手」判断だけ。エージェント性はループ全体に分散していて、関数の中に座っているわけではない。

ではなぜ、多段で一貫した次手を選べるのか。学習データに目標指向のテキスト（手順を踏むチュートリアル、デバッグ記録、step-by-stepの推論、コミット履歴）が大量にあり、有能なエージェントが目標を分解して追う「形」をそこから学んでいる。さらに強化学習（RL）——例を真似るのではなく、試して・採点され・うまくいった手を強化していく学習——が、「平均的な次手の模倣」を「実際に成功に至る手」へと研ぐ。だから現代のエージェント能力は純粋な模倣ではなく、成果（タスクの成否）を報酬にした成分が入っている。

モデルはエージェントではない。
極めて優秀な「次の一手関数」であり、
エージェントとは、それをツールと目標を持つ
ループに入れたときに現れる性質だ。

第2章の結論。中には部分的な世界モデルがあり、エージェント性は外側のループに宿る。——なら、その「次の一手の質」が実際に伸びる領域と伸びない領域は、何で決まるのか。

Chapter 03

何が伸びるかは
「検証可能性」が決める

コードと数学が、最速で伸びる理由

「事例を大量に集めて、よくあるパターンを出しているだけ」という見方は、半分正しいが不完全だ。純粋な暗記なら、見たコードしか再現できず、未知の組合せで失敗するはず。だが実際には、未知の仕様・変数名・ライブラリ構成で動くコードを書く。純記憶説はこの時点で反証されている。

コードが学習信号として例外的に優れている理由は三つ。構文・型・スコープという強い局所制約が、少し間違えると致命的なので精密なモデル化を強制すること。合成的な文法を持つので、部品と合成規則を学べば未見の組合せへ汎化できること。そして最大の理由は——検証可能であること。実行してテストが通ったものを、そのまま報酬にできる。

コーディングと数学の伸びが最速なのは、この一点に尽きる。正しさを自動判定できるからRLが回せる。エッセイの「質」では、同じことができない。検証可能性こそが、能力を伸ばすレバーだ。

能力の境界は「採点表があるか」で引ける

第2章の「ムラ」は、ここで回収される。解ける／解けないの境界は、モデル内部に欠けた部品ではなく、問題の側にフィードバック構造（採点表）があるかで引いたほうが、はるかによく当たる。「現実 vs 非現実」ではない。現実の問題は山ほど解いている——日々コードを書かせているのが、それだ。

図 4 — 能力地図は「採点表の有無」で引ける

縦軸が高い（＝正誤を自動で・安く判定できる）ほど伸びやすい。LLMが圧倒的に強いのは左上（テキスト豊富＋自動採点）。「タンパク質・天気」は右上——テキストは希少でも自然が採点してくれる。逆に右下（採点が曖昧で高くつく）が、いま最も苦手な領域。

評価工学を学んでいる身としては、ここが一番ピンとくる。能力の地図は、モデルの内部を覗かなくても、問題側の「採点表の設計」でかなり予測できる。伸ばしたいなら、まず採点表を作れ、という話でもある。

Conclusion

較正された結論

三章をつなぐと、像はこうなる。学習目標は単純（第1章）。それを満たす解として、人間のテキスト・コード・推論を生む過程を圧縮した、部分的だが実在する世界モデルが育つ（第2章）。推論はその関数を1トークンずつ走らせること、エージェント性はそれを包む外側のソフトウェアの性質。そして何が実際に伸びるかは、問題に採点表があるかが決める（第3章）。

「生成AI」「次の単語予測」は、インターフェースと学習目標を指す言葉にすぎない。その単純さを、内部機構の単純さと取り違えないこと。これが、最初の落差の正体だった。

この能力には、
自動で回せる採点表があるか？

あるなら速く伸びると見てよい。無い・曖昧・高くつくなら、デモが派手でも割り引く。内部の議論より、この一問のほうが当たる。

未決着の注記

誠実に補足すると、「本当に理解しているのか、高度なパターン照合に過ぎないのか」は科学的に未決着だ。確率的オウム説（ただ統計的に真似ているだけ）と創発的世界モデル説（内部に理解を作っている）が対立し、証拠は両側にある。プロービング研究は構造化された内部表現を見つけており前者に反するが、脆さや失敗モードはパターン照合説のほうがうまく説明する。実態はおそらく両者の混合で、配分はまだ地図化の途上。どちらかに旗を立てて終わる段階ではない。

ここから先は本筋から離れた余談

余談A — LLM以外で伸びそうなジャンル

本編の枠組みがそのまま効く。有望どころは、だいたいLLMの二つの弱点——グラウンディングの欠如と、採点表のある問題しか伸びにくいこと——を突く方向に出てくる。

現実に身体を持たせる方向では、ロボティクス／身体性AI。実際のカメラと手足を与え、現実から直接フィードバックを受けて学ばせる。「水に入る」をやらせる試みで、グラウンディングに正面から効く。近い研究にワールドモデル——環境のシミュレーターをAI自身に学ばせ、その中で計画させるアプローチがあり、図4でいう右下を内側から攻める動きだ（まだ初期段階）。

自然が採点してくれる方向では、科学のためのAI。タンパク質構造を解いたAlphaFoldはLLMではない専用設計で、創薬・材料・天気は、自然が「正解」を返す＝図4の右上。検証可能性のレバーがそのまま効く。強化学習（自己対戦系）も勝ち負けが明確な世界で異常に強くなり、いまはLLMと融合して推論モデルの中身になっている。別系統の拡散モデル（画像・動画・音声）はLLMと全く違う仕組み（ノイズを消していく）で、特に動画生成の勢いが強い。

これは2026年前半時点での読みで、確定した予言ではない。ただ「グラウンディングを埋める方向」と「採点表のある新領域」が伸びしろ、という大枠は当面ぶれにくいと思う。

余談B — なぜLLMはここまで流行ったのか

三つが奇跡的に噛み合った。

万能インターフェース——テキストは知識の共通言語で、翻訳も要約もコーディングも相談もほぼ何でも文章で表せる。だから文章が得意な一個のモデルが膨大な種類の仕事をこなせる（タンパク質しか解けないAlphaFoldとの決定的な違い）。

タダで無限の教材——「次の単語を当てる」は人間が正解ラベルを付ける必要がなく、インターネット全体がそのまま教材になる。人手のボトルネックがないから、ひたすら大きくできた。

大きくするほど賢くなる構造——2017年のTransformerがGPUと相性がよく、「計算とデータを増やすほど性能が上がる」関係（スケーリング則）が予測できる形で成り立った。伸びが読めるから、巨額投資が合理的になった。

この三つで土台ができて、最後に2022年末のChatGPTが「チャットするだけ」という誰でも使える皮をかぶせた。研究者の道具が一般人の道具に変わった瞬間が、社会現象になった理由だ。

単純な目標が、複雑さを強制する

中では、部分的な世界モデルが動いている