AIエージェント入門

AIエージェントとは何か
自律性のグラデーションで読み解く

「返答するAI」から「勝手に動くAI」へ。
2026年現在のエージェント地図と、活用度を1段上げる思考法。

2026年3月 読了 約10分 エンジニア・ビジネス職向け

この記事でわかること

01 / What is an AI Agent

AIエージェントとは何か

まず比喩で理解する

従来のAI(チャットボット)

「質問に答える辞書」。聞いたことだけ答える。自分から動かない。

ユーザー → 質問 → 回答

AIエージェント

「優秀なアシスタント」。ゴールを伝えれば、自分で考えて、調べて、作業して、完成させる。

ユーザー → 目標 → 計画 → 実行 → 完了

たとえば「来月の沖縄旅行の計画を立てておいて」と頼むと、航空券・ホテル・観光地を調べてまとめたスケジュール表を作ってくれる ─ それがAIエージェントのイメージ。

「AIエージェント」という言葉は、2024〜2025年にかけて急速に広まった。でも、ChatGPTもエージェントなのか?ターミナルで動くClaude Codeは?スマホのSiriは?

答えは「程度による」。AIエージェントは固定的なチャットボットと完全自律ロボットの間に広がるグラデーションであり、どこからが「エージェント」かは一概に決められない。

ただし実用的な定義として、「目標を与えられ、自律的に計画を立て、ツールを使い、状態を記憶しながら複数ステップを実行できるAIシステム」と捉えると整理しやすい。

目標志向

「どうやる」ではなく「何をするか」を与えれば動く

自律的な計画

目標達成のステップを自分で組み立てる

ツール実行

検索・コード実行・ファイル操作など外部アクションが取れる

状態の記憶

作業の途中経過・文脈を保持して次のステップに活かす

つまり、「質問に答えるAI」はチャットボット。「質問に答えてWebを調べてメモにまとめておくAI」がエージェントの入り口。コードを書いてテストして直してを繰り返すなら、もう立派なエージェントだ。

なぜ今これほど話題なのか

これまでのAI

質問する 答えが返る

次の行動はすべて人間が担う

AIエージェント

目標を伝える
計画を立てる
ツールを使って実行
修正・改善を繰り返す
完成物を渡す

「考えて動くAI」が登場したことで、これまで人間が何時間もかけていた「調べる・整理する・まとめる・修正する」という作業の連鎖を、AIが丸ごと引き受けられるようになった。これが急速に話題になっている理由。

02 / Real World Examples

具体的に何ができるのか

「エージェントを使うとどんな場面で役立つか」をイメージしやすいよう、日常的なユースケースを5つ挙げる。

旅行計画の立案

「来月3泊で沖縄に行きたい」と伝えると、航空券・ホテル・観光地・食事を調べてスケジュール表を自動作成。

競合・市場調査

「競合A社とB社を比較してレポートを作って」と頼むと、Webを巡回して情報を収集し、比較表付きのドキュメントを生成。

議事録・報告書の作成

会議メモや音声データを渡すと、要点整理・アクションアイテム抽出・報告書の下書きまでを自動実行。

データ整理・グラフ化

バラバラなExcelファイルを渡すと、整形・集計・グラフ作成をまとめて実行。さらにPowerPointへの転記まで自動化できる。

コードの作成・修正・テスト

「このバグを直してテストも通して」と伝えると、コードを読んで修正し、テストを実行して、問題があれば自分で直し直す。エンジニアの作業をループで代替する。

03 / Spectrum of Autonomy

自律性のグラデーション ── 5段階スペクトル

AIエージェントは「自律度」という軸で5段階に整理できる。現在普及しているほとんどの製品はこのどこかに位置する。

Lv.1
チャットボット 固定的

Q&Aのみ。ツールなし。自分から行動しない。

例: 初期のChatGPT(GPT-3.5)、FAQチャットbot

Lv.2
RAGアシスタント 情報取得

外部ドキュメント・DBを検索して回答を強化。実行はしない。

例: Notion AI、社内ドキュメント検索系ツール

Lv.3
ツール呼び出し型 単発実行

検索・計算・API呼び出しなど1アクションを自動実行。計画は1ステップで完結。

例: Perplexity、web検索付きChatGPT

Lv.4
マルチステップエージェント 計画+実行

目標を受け取り、複数ステップの計画を立てて順次実行。途中でブラウザ操作・ファイル編集・コード実行を組み合わせる。

例: Claude Cowork、Deep Research、Manus、Claude Code

Lv.5
完全自律エージェント 自律+適応 研究段階

長期目標を与えられ、環境を観測・学習しながら自律的に行動し続ける。人間の介入なしに動作。

例: 研究機関の実験的システム(一般向けにはまだ未公開)

2026年現在、市場に出回っている製品の大半はLv.3〜Lv.4に集中している。Lv.5は研究・実験段階で、一般消費者向け製品としてはまだ稀。「AIが全部やってくれる」は今の話ではなく、「AIと一緒に作業する」が現実のスタートライン。

04 / Agents in 2026

2026年現在の代表的なエージェント

2025〜2026年に話題になった4つのエージェントを紹介する。種類・用途・強みの違いを知ることで、「AIエージェントの多様性」が実感できる。

Deep Research

OpenAI / Google(Gemini)/ Perplexity などが独立して提供

リサーチ特化

「○○について詳しく調べて」と頼むと、自律的にWebを数十〜数百ページ巡回し、情報を整理・合成してレポートを生成する。「Deep Research」という名称はOpenAI・Google(Gemini)・Perplexityがそれぞれ独立に提供しており、各社の実装・得意領域は異なる。OpenAIが2025年初頭に先行し、各社が追随する形で普及した。

それまで「自分でWebを何時間も巡回して情報をまとめる」作業を代替してくれる初の本格ツールとして、リサーチ職・ビジネス職を中心に急速に普及した。

強み

  • ・大量情報の高速合成
  • ・一次情報ソースへのアクセス
  • ・レポート形式で出力

注意点

  • ・ハルシネーションは残る
  • ・最新情報に時差あり
  • ・途中で方向修正しにくい

活用イメージ:業界調査・競合分析・技術調査など「広く深く調べたい」タスクに最適。自分でブラウザを何タブも開いてメモしていた作業の自動化。

Manus

Butterfly Effect Pte Ltd(Monica.im)→ Meta傘下 | 2025年3月登場・12月Meta買収

汎用自律

「世界初の汎用AIエージェント」と自称して登場し、アクセス集中でインフラが逼迫するほど話題になった中国発のエージェント。ブラウザ操作・コード実行・ファイル作成・API連携をすべて自律的に組み合わせ、指定した目標をバックグラウンドで達成する。

GAIAベンチマーク(現実の複合タスクを評価する指標)で当時のGPT-4oを上回るスコアを記録したことも話題になった。サブエージェントが並列で動く「Wide Research」機能も持つ。2025年12月30日にMetaが約20億ドルで買収を発表し、現在はMeta傘下で運営継続中。中国事業は清算済み。

強み

  • ・汎用性が極めて高い
  • ・サブエージェント並列処理
  • ・ユーザーの好みを学習

注意点

  • ・2025年12月Meta買収→今後の方向性に注意
  • ・コスト・アクセス制限
  • ・高い自律度 → 予期せぬ操作のリスク

活用イメージ:「Excelを整理してグラフを作りPDFにまとめて」のような、複数アプリを横断する複合タスクの自動化。汎用性の高さがDeep Researchとの最大の違い。

Claude Cowork

Anthropic| 2026年1月 リサーチプレビュー開始

知識業務特化

Claude Code(コーディングエージェント)のアーキテクチャをそのままDesktopアプリに持ち込み、コードを書かない人でも使えるようにした製品。「Claude Codeをターミナルなしで」というコンセプト。

特定フォルダを指定するとその中のファイルを読み書き・整理・合成できる。Agent Skills(OSSのスキルセット)によりExcel・PowerPoint・Word・PDFなどのOffice系ファイルを直接読み書き・生成でき、データ分析からスライド生成までを一気通貫で実行。スケジュールタスクで定期的な自動実行も可能。2026年1月30日にプラグイン機能を正式公開し、HR・デザイン・エンジニアリング・財務分析など幅広いカテゴリの11本のOSSプラグインをローンチ時に提供した。

強み

  • ・ローカルファイルに直接アクセス
  • ・Microsoft 365と深い連携
  • ・プラグインで機能拡張可能
  • ・スケジュール実行

注意点

  • ・有料プランのみ(Pro・Max・Team・Enterprise)
  • ・プロンプトインジェクションに注意
  • ・まだリサーチプレビュー段階

活用イメージ:「散らかったDownloadsフォルダを整理」「領収書の写真から経費表を作成」「議事録メモから報告書を生成」など。プログラミング不要で使えるのが最大の特徴。

OpenClaw

Peter Steinberger(OSS)| 2025年11月〜 旧名: Clawdbot / Moltbot

オープンソース

「WhatsAppやTelegramからAIエージェントを動かす」という超シンプルなコンセプトで生まれたOSSエージェント。Node.jsで動くデーモン(常駐プロセス)をセルフホストし、既存のメッセージングアプリをUIとして使う。

「外出中にスマホのTelegramで自宅サーバーに指示してコードを直させる」「夜間バッチをモバイルから承認する」などのユースケースがエンジニアに刺さり、公開4ヶ月で25万超のGitHubスターを集め、ReactやLinuxを抜いてGitHub史上最もスターの多いソフトウェアプロジェクトとなった。名称はAnthropicからの商標要請により Clawd → Moltbot → OpenClaw と変遷した経緯がある。

強み

  • ・完全無料・自己ホスト
  • ・既存のメッセージアプリが窓口
  • ・コミュニティが活発

注意点

  • ・セキュリティ設定が複雑
  • ・広範な権限付与が必要
  • ・技術者向け(ノーコードではない)

活用イメージ:エンジニアが自分のサーバーや開発環境をスマホから操作するゲートウェイ。「土日のお出かけ中にデプロイ承認」のような場面。ノーコードユーザーには向かない。

2026年2月14日、作者のPeter SteinbergerがOpenAIへの参加を発表。プロジェクト自体はオープンソース財団へ移管され、OSSとして継続。週末プロジェクトが90日でOpenAI入りにつながったという話は、AIエージェント開発競争の激しさを象徴するエピソードだ。
05 / How to Choose

エージェントの選び方マップ

「どのエージェントを使えばいいか」はタスクの性質によって変わる。「出力の種類」と「タスクの規模」で2軸に整理すると選びやすい。

← 単発タスク ─────────── 継続・複合タスク →

知識収集・調査(単発)

Deep Research

「○○について調べてまとめて」一度のプロンプトで完結するリサーチに

知識業務・複合ファイル操作

Claude Cowork

「毎週報告書を作る」継続的なドキュメント作業の自動化に

開発・インフラ(単発操作)

OpenClaw

「このPRをレビューしてマージして」スマホからの単発コード操作に

汎用・複合タスク(大規模)

Manus(現Meta傘下)

「調査→分析→資料作成まで全部」マルチアプリ横断の大型タスクに。Meta AIへの統合が進行中のため今後の位置づけが変わる可能性あり。

もちろんこれは目安。実際は「試してみる」が最短距離。各エージェントの無料枠や体験版でまず小さなタスクを動かしてみることを勧める。使ってみると「あ、これじゃない」が早くわかる。

補足 / Also Worth Knowing

その他の注目エージェント

04で紹介した4つ以外にも、知っておくべきエージェントは多い。「どんな領域をサポートするか」の観点で5カテゴリに整理した。

Web・リサーチサポート ── ブラウザを操作してWeb上のタスクを自律実行
ブラウザエージェント 2025年後半〜 急成長カテゴリ

AIがブラウザを直接操作し、リサーチ・フォーム入力・予約・買い物などをWeb上で自律実行する。「独立ブラウザ型」と「拡張機能型」の2形態があり、既存のWeb体験に最も近いためエージェント入門としても有力。自律性スペクトルではLv.3〜Lv.4。

独立ブラウザ型

Atlas(OpenAI)
Chromiumベース。Agent Modeで自律実行、ブラウザメモリで文脈記憶。無料〜Plus $20/月。macOS先行。

Comet(Perplexity)
Perplexityのリサーチ能力をブラウザ操作と統合した独立ブラウザ。

拡張機能型

Claude in Chrome(Anthropic)
ページ読み取り・ナビゲーション・フォーム入力・スケジュール実行。CoworkとのWeb調査→資料作成連携が強力。

Project Mariner(Google)
WebVoyagerベンチマーク83.5%のSoTA。並列10タスク同時実行対応。テスター向け。

コーディング・開発サポート ── コードを書く・作る・自作する
Devin Cognition AI|AIソフトウェアエンジニア

2024年に「世界初のAIソフトウェアエンジニア」として登場。コード作成・テスト実行・PR作成まで自律実行する。エンジニア職の未来を議論させるきっかけになった製品。

LangChain / LangGraph エージェント開発フレームワーク

実務でエージェントを自作するときに最も広く使われているフレームワーク。ツール呼び出し・メモリ・マルチエージェント協調の仕組みを提供する。「使う」より「作る」側に立つなら必修。

ビジネス業務サポート ── メール・会議・資料・ワークフローを自動化
Microsoft Copilot Agents 企業導入の最大勢力

Teams・Outlook・SharePointなど既存のM365環境に組み込まれたエージェント群。2026年3月9日、Copilot Wave 3として「Copilot Cowork」を正式発表。Claude Coworkの技術を統合し、メール・会議・ファイルを横断したマルチステップタスクを自律実行する。E5ライセンスに含まれ、E7($99/user/月、5月開始)にもバンドル。

Google Labs ビジネス系エージェント 早期アクセス段階

Googleが実験段階で公開するビジネス向けエージェント群。Google Workspace利用者に身近。

CC(Creative Companion) ── Gmail・Calendar・Driveを接続し、毎朝「Your Day Ahead」ブリーフィングをメール配信。返信でカスタムリクエストも可能。米国・カナダで早期アクセス中。

Opal ── テキストプロンプトだけでワークフロー自動化アプリを構築できるノーコードツール。Gemini 3 Flashが目標を理解して最適なツールを自動選択する。Zapier・Power Automateの競合。

Pomelli ── WebサイトURLを入力するだけでブランドDNAを自動抽出し、SNSキャンペーン素材を一括生成するAIマーケティングエージェント。無料。

エージェント間連携サポート ── エージェント同士をつなぐ基盤インフラ

「エージェント同士がどう連携するか」「Webサイトがエージェントにどうサービスを提供するか」という基盤レイヤーの標準化が急速に進んでいる。2025年12月にLinux Foundation傘下でAgentic AI Foundation(AAIF)が設立され、OpenAI・Anthropic・Google・Microsoft・AWSが共同創設者として参加。3層のプロトコルスタックが業界コンセンサスになりつつある。

MCP(Model Context Protocol)── 「エージェントのUSB-C」

Anthropicが開発しLinux Foundationに寄贈。エージェントが外部ツール(DB・API・ファイルシステム等)と接続するための標準規格。SDKは月間9,700万ダウンロード超。

A2A(Agent-to-Agent Protocol)── 「エージェントのHTTP」

Googleが2025年4月にリリース。エージェント同士が能力を発見し、タスクを委任し、状態を同期するための通信規格。100社以上が支持。マルチエージェント協調の基盤。

WebMCP(Web Model Context Protocol)── 「WebのMCP拡張」

2026年2月にChrome 146 Canaryに搭載。WebサイトがAIエージェントに直接ツールを公開できるW3C標準。スクレイピング不要になる。Google・Microsoft共同開発。

Web系エンジニアへ:「WebサイトはAIエージェントが使うもの」へのパラダイムシフトを象徴している。WebMCPへの対応が今後のキャリアに直結するテーマになる可能性が高い。

源流・先端研究 ── 歴史的な起点と、その先の未来像
AutoGPT 2023年〜 エージェントブームの元祖

「AIが自分でゴールを目指して動く」というコンセプトを最初に世に示したOSSプロジェクト。実用性より衝撃性で業界の方向を変えた歴史的存在。現在も開発継続中。

Project Astra Google DeepMind|研究段階

カメラで現実世界を認識し、Project Mariner(ブラウザ)と連携して物理・デジタルを横断するタスクを実行する「ユニバーサルAIアシスタント」の研究プロジェクト。2026年中にGeminiアプリへ統合予定。Lv.5に最も近い現実的な試みのひとつ。

06 / What Changes, What Doesn't

変わること・変わらないこと

AIエージェントは急速に進化している。「変わること」に振り回されず使い続けるために、「変わらないこと」を先に把握しておくのが重要だ。

変わること(近い将来)

自律度がさらに上がる

Lv.4が当たり前になり、一部タスクはLv.5へ。人間の確認なしに完結する範囲が広がる。

マルチエージェント協調が普通になる

リサーチ係・コーディング係・レビュー係が分業する「エージェントチーム」編成が標準化する。

コストが急速に下がる

今は有料プラン限定の機能が、1〜2年後には無料プランで使えるようになる可能性が高い。

「プロンプト」の意味が変わる

細かい手順書から「目標と制約の設計書」へ。曖昧でも動くが、良い指示が出せる人との差がつく。

変わらないこと(本質)

「何をしたいか」は人間が決める

エージェントはHowを担う。Whatを考える力は人間にしかない。目的設計の重要性は増す一方。

アウトプットの検証責任は人間に

エージェントは間違える。「任せたから自分は関係ない」は通らない。確認・判断のスキルは不可欠。

セキュリティリスクの構造

プロンプトインジェクション・権限過剰・データ漏洩のリスク構造は変わらない。自律度が上がるほどリスクも上がる。

「信頼を積み上げる」プロセス

新しいエージェントは小さいタスクから試して徐々に権限を広げる。この順序はどのツールでも変わらない。

中長期の見通し

「AIが仕事を奪う」ではなく、「AIエージェントと仕事をどう分担するか」が問われる時代になる。Lv.4〜5の自律エージェントが日常業務に入ってきたとき、価値を出せるのは「エージェントに何をさせるか設計できる人」だ。

コードを書く能力より、タスクを分解してエージェントに渡せる思考力のほうが長期的な競争力になるかもしれない。

07 / Level Up Your Usage

活用度を1段上げる3つの視点

エージェントを「使い始める」のは誰でもできる。「うまく使う」ために押さえたい3つの考え方。

1

タスクを「目的」と「制約」に分けて渡す

「要約して」より「営業向けに3行で、専門用語なしで要約して」のほうが使えるアウトプットが出る。エージェントへの指示は「何を達成したいか(目的)」と「やってはいけないこと・守るべき条件(制約)」の2軸で設計するクセをつけると質が変わる。

× 「売上データを分析して」

「Q1の売上データを分析して、前年比とカテゴリ別の傾向を1ページに整理して。グラフも含めること」

2

タスクのリスクと自律度をマッチさせる

リバーシブル(元に戻せる)で影響範囲が小さいタスクほど自律度を上げてよい。「削除」「公開」「送信」を伴うタスクは、人間が確認するステップを必ず残す。

自律度を上げてよい

  • ・文書の下書き
  • ・ファイルの整理・リネーム
  • ・調査・情報収集
  • ・コードの提案・レビュー

人間確認を残す

  • ・メール・メッセージ送信
  • ・ファイルの削除
  • ・コードのデプロイ
  • ・外部APIへの書き込み
3

「エージェントに頼む」=「小さなプロマネになる」

エージェントへの指示は、人への仕事依頼に近い。背景・目的・成果物の形式・守ってほしい条件をちゃんと伝えるほど質が上がる。

裏返すと、エージェントがうまく使えない人は、実は「人への仕事の依頼が苦手」な人かもしれない。コミュニケーションの基礎力とエージェント活用力は、意外と連動している。

まとめ:AIエージェントと「ともに働く」時代

AIエージェントは「すごいチャットボット」ではなく、「目標を与えれば自分で考えて動くデジタルの同僚」だ。

2026年現在の最前線はLv.4の自律エージェント。Deep Researchはリサーチを、Manus(現Meta傘下)はWeb横断の汎用タスクを、CoworkはOfficeワークを、OpenClawはエンジニアのモバイル操作を、それぞれ代替しつつある。

重要なのは、ツールの変化に振り回されないこと。「何をしたいかを設計する力」と「アウトプットを検証する目」は、どのエージェントが台頭しても陳腐化しない。まずは1つ試してみることから始めよう。

関連する読み物