AI 分析エージェントの正体 — ChatGPT との違い、できる/できないこと、本番に乗せる 4 つの準備【2026】

「AI 分析エージェント」とは何で、何が新しいのか

ここ 1〜2 年で「AI エージェント」という言葉が一気に広まりました。ただ、業務にどう効くのか、ChatGPT を使うのと何が違うのか、明確な説明は少ないです。

結論から書くと、AI 分析エージェントは「自社のデータを使って、業務質問に自分で SQL を組み立てて、答える AI」です。ユーザーが業務の言葉でそのまま質問でき、AI が裏で SQL を実行し、グラフと数値で返してくる。これが普通になったのが 2025-2026 年です。

この記事では、AI 分析エージェントが「何で、何ができて、何ができないか」を、直近 1 年の 500 名 / 月 10,000 件超の実運用ベースで整理します。

ChatGPT に貼るのとは、何が違うのか

ChatGPT に「うちの先月の応募率を分析して」と書いても、答えは出ません。 ChatGPT はあなたの会社のデータを知らないからです。一般論として「応募率は分母を◯◯にして……」と返ってくるだけ。

AI 分析エージェントは違います。

自社の DWH（データの倉庫）に直接接続している。 BigQuery / Snowflake / Redshift などにユーザー権限で接続し、SQL で生データを引ける
「応募率」「LTV」のような業務語彙の定義を、内部に持っている。「応募率は応募ログの完了フラグ ÷ クリック数で、特定キャンペーンは除外」のような定義を、事前に教えてあるので、毎回同じ計算で答えを返せる
業務質問を受け取ると、自分で SQL を書いて、実行して、結果を返す。人間が SQL を書く必要がない

単発の質問だけでなく、複数の作業をつなげて自分で実行するのも特徴です。

「先月のデータを取って、セグメント別に分けて、グラフを作って、Slack に投稿する」
「2 つのチャネルの売上推移を比較して、有意差を検定して、結論を文章でまとめる」
「異常値が出たカテゴリを特定して、その原因を仮説立てて、関連データを引いて検証する」

これらを「人間の手作業 → AI に丸投げ」できるのが、エージェントと呼ばれる理由です。

何ができて、何ができないか

できること

業務質問を SQL に変換して、データを引いてくる。「先月の LTV 高い顧客の特徴は？」「カテゴリ別売上の前年比は？」のような質問に即答
結果をグラフ化して Slack や Teams に投稿する。棒グラフ、折れ線、ヒートマップを動的に生成
CSV や HTML レポートを生成する。ファイルとして共有可能
業務語彙の辞書とお手本集を参照して、定義のブレない数値を返す。「応募率」が組織で統一定義されていれば、何度聞いても同じ答え
過去の質問履歴を踏まえて、深掘り質問に答える。「Email 流入だけで再集計して」「前年同月比に変えて」のように、文脈を保持して再分析

できないこと（または苦手）

業務語彙が辞書化されていない組織では、回答が毎回ブレる。これは AI の問題ではなく、データ基盤側の問題
データ自体が存在しない問いには答えられない。計測されていない指標は、聞いても出ない（「離脱した理由」を知りたくても、ログが取られていなければ無理）
「なぜそうなったか」の因果推論は、別途仮説を入れない限り限界がある。相関は見られるが、因果は人間の解釈とドメイン知識を含めないと判定できない
機密性の高いデータを、権限管理なしで開放するのは危険。ユーザー / ロール別のアクセス制御が前提
複雑な多段 JOIN や、500 行を超えるような複雑な SQL は精度が落ちる。お手本集（Golden Queries）に登録された分析パターンに乗せるのが現実的

実務で使われている代表的な質問パターン

500 名規模で運用したログから、実際にユーザーが投げてくる質問を分類すると、だいたい次の 5 パターンに収まります。

① 直近の異常検知系

「先月の応募率がチャネル別にどう動いた？」
「今週の売上が下がってる、原因は何？」
「リピート率が悪化している層を特定して」

② セグメント別の深掘り

「LTV 高い顧客の特徴を出して」
「離脱した顧客と継続した顧客の違いは？」
「カテゴリ別の購入頻度の差を見たい」

③ 効率指標の比較

「広告チャネル別 ROAS の前月比」
「ストア別 CVR の業界平均との比較」
「メールフロー別 RPR の改善余地」

④ 仮説検証 / 効果測定

「先週やったキャンペーンの効果は？」
「価格変更後の購入率変化を、A/B テスト形式で見せて」
「特定のメール送信が翌週の売上に効いてる？」

⑤ 経営層向けレポート生成

「今月の経営会議用に、KPI 5 つをまとめて」
「投資家向けに、直近の主要指標を 1 ページにまとめて」
「四半期サマリーを作って、Slack 投稿用に整形して」

①②③が頻度高、④⑤は経営層・分析担当の専門質問で頻度は低いが価値が高い、という分布です。

500 名 / 月 10,000 件運用してわかった現実

直近 1 年、Slack / Teams / Chatwork に常駐する AI 分析エージェントを500 名規模 / 月 10,000 件超のリクエストで運用してきました。

見えてきた現実は、「AI を入れる」ことより「AI が答えられる準備」が大事ということでした。 AI が幻覚するパターンは、ほぼ次のどれかです。

業務語彙が組織内で複数並走しているので、AI が毎回違う SQL を書く。「LTV」が 3 万円と 4.5 万円の 2 通り出てきて議論が止まる
データの粒度が施策ごとにバラバラで、毎回ゼロから集計する羽目になり、同じ質問なのに微妙に違う数字が返る
「特定キャンペーンは LTV から除く」のような暗黙ルールがどこにも書かれていない。ベテランしか正しい答えに辿り着けないが、AI は知らずに集計する
テスト注文や社内購入が含まれてしまう。管理画面では除外するロジックが、生データには反映されていない

これは LLM の性能の問題ではなく、データ基盤側がAI が読める状態になっていないことが原因です。全体像はAI Ready なデータ基盤の正体、SQL 精度の話はこちらに書きました。

本番に乗せるために必要な 4 つの準備

1 年運用して、「これがないと AI 分析エージェントは使われない」と痛感した 4 点。順番にやらないと、いくらモデルを差し替えても精度は出ません。

① ベーステーブルの整備

ユーザー単位、案件単位、月次単位など、ドメインで頻出する分析粒度に揃えたテーブル群を整備。施策ごとの一品マートを乱立させない。

典型的に整える粒度（EC/D2C の場合）：

users（ユーザー属性、初回流入、累積購入、最終接触）
orders（注文、商品、チャネル、粗利）
sessions（流入元、滞在、コンバージョン）
monthly_metrics（月次の売上 / 新規 / リピート）
cohorts（獲得月 × 経過月）

整形は dbt のような SQL ベースのツールでコード化し、Git で管理します。全体像はデータ基盤を組むときに考えることを参照してください。

② 業務語彙とルールの辞書化

「応募率」「LTV」「セグメント」などの定義と、暗黙ルールを構造化して書き出す。オーナーを 1 人に紐付けて、変更履歴も残す。

辞書に書く項目：

定義（一行で言える形）
計算式（SQL や疑似コード）
使う期間（直近 24 ヶ月、など）
オーナー（1 人）
除外するもの（特定キャンペーン、テスト注文、社内購入など）
同義語と派生関係（「応募率」⊃「チャネル別応募率」⊃「Email 応募率」）

③ お手本集（Golden Queries）と評価ハーネス

主要分析パターンを SQL のお手本として登録。 AI はゼロから書くのではなく、お手本を参照する。パラメータ部分（期間、セグメント、チャネル）だけ埋める形にすると、精度が安定します。

評価ハーネスは、過去の質問・SQL・回答を保持して、リグレッションテストで精度劣化を即時検出する仕組み。 LLM のバージョン更新やデータ変更で精度が落ちないかを継続的に検証します。

④ 信頼度と説明可能性のガードレール

回答に信頼度スコアを付与（90% 以上 / 70-90% / 70% 未満で表示を変える）。実行 SQL、参照テーブル、計算前提を毎回引用する。ユーザーが「この答えを信じていいか」を判断できる材料を、出力ごとに添える。

信頼度が低い回答は、即座に「自信がない」ことをユーザーに伝える。そこで人が判断する。これで「AI が間違えても、組織は壊れない」状態になります。

市場の選択肢は 3 系統

自社で AI 分析エージェントを使うなら、選択肢はおおむね 3 つに分かれます。

① 大手データ基盤の内蔵機能（Snowflake Cortex、Databricks Genie、Tableau Pulse、ThoughtSpot Sage など） — その基盤を既に使っている会社向け。追加投資が小さい
② 自然言語分析の単機能 SaaS（ThoughtSpot、Hex、Delphi、Zenlytic、Fabi.ai など） — 中〜大規模で、複数の DWH を横断したい会社向け。月額固定費が乗る
③ 自作（業界テンプレ + LLM + Slack ボット）— 30〜200 名規模で、業界特化の業務語彙を持ち込みたい会社向け。月額固定費がほぼゼロ。DecisionFlow はこのパターン

詳細と選び方はSlack 常駐 AI 分析エージェントの選び方に書きました。

コスト感の現実 — LLM API は意外と安い

「AI を 500 名に開放したら、API 費用が爆発するのでは？」とよく聞かれますが、現実はそうでもないです。

1 リクエストあたりのコスト目安

Gemini 2.5 Flash や Claude Sonnet などの主要モデルだと、 1 質問 → SQL 生成 → 結果整形までで、1 リクエストあたり数円〜数十円のレンジです。

月の総コスト

月 10,000 リクエストで計算すると、 1 リクエスト 5 円 × 10,000 = 月 5 万円程度。複雑な質問（多段 JOIN、長い文脈）が多い組織でも、月 10〜20 万円のレンジに収まります。

意外と安く見える理由

人を 1 人雇って同じ仕事（業務質問への回答）をさせると、月 50 万〜 100 万円の人件費がかかります。 LLM API の月 5〜20 万円は、人件費の 1 / 5〜1 / 20。 1 人のアナリストが 24 時間稼働する状態を作れる、と考えれば桁違いに安い。

落とし穴 5 つ

「AI を入れれば全部解決」と期待する — データ基盤の整備が前提。AI は答える機械であって、整備する機械ではない
業務語彙の辞書を作る前に、フル開放した — 初週で「答えがバラバラ」と評価され、信用を失う。まず 1 部門 / 5 名で限定運用、語彙を整備しながら範囲を広げる
モデルの差し替えで精度が上がると思った — GPT-4o → Claude → Gemini を回しても、業務語彙の問題は解決しない
SQL や参照テーブルを引用しなかった — 数字を疑った瞬間にユーザーが離れる。引用は必須
評価ハーネスを後回しにした — LLM 更新やデータ変更で精度が落ちても、誰も気づかない。最初から実装する

まとめ

AI 分析エージェントは「自社データに直接接続して、業務質問に自分で SQL を書いて答える AI」。 ChatGPT 単体とは別物
実務で使われる質問は 5 パターンに収束する：異常検知 / セグメント深掘り / 効率比較 / 効果測定 / レポート生成
選択肢は 3 系統。規模と既存スタックで自然に絞られる
本番に乗せるには 4 つの整備が必要：ベーステーブル / 辞書 / お手本集 / ガードレール
LLM API のコストは、人件費の 1 / 5〜1 / 20 程度。意外と安い