AIクローラーのアクセスを診断する手順

AIクローラーのアクセスはどう診断するのか

サーバーログでAIボットへのエラー応答を調べ、CloudflareのBot設定を点検し、GA4のAI参照と突き合わせる、という3段で診断します。設定上の許可ではなく、実際に読めているかを確かめるのが目的です。

robots.txt を許可しても、CDNやレート制限で弾かれていれば引用は生まれません。だから「設定」ではなく「ログに残った実際の応答」から見ます。

診断の手順

サーバーログを開き、OAI-SearchBot・ChatGPT-User・ClaudeBot・Claude-User・Claude-SearchBot・Googlebot などのUser-Agentを抽出する。
それらのボットへの応答コードを確認する。403 Forbidden や 429 Too Many Requests が出ていれば、実質ブロックされている。
Cloudflare を使っている場合、Security の Bots（Control AI Crawlers）でAIスクレイパーのブロックが有効になっていないか点検する。
GA4 のAI参照トラフィック（utm_source=chatgpt.com など）と突き合わせ、クロールはされているのに参照が伸びていない箇所を探す。

この手順の根拠は Mersel の整理にあり、ログで OAI-SearchBot・PerplexityBot・Claude-User への403応答を確認し、CloudflareのControl AI Crawlers を点検するよう勧めています（出典: How to Block or Allow AI Bots）。

つまずきやすい点

偽のボットを本物と取り違えるのが代表的な失敗です。User-Agent 名は誰でも詐称できるため、UA文字列だけで判断すると診断を誤ります。

OpenAI は GPTBot・OAI-SearchBot・ChatGPT-User の公開IPリストをJSONで公開しており、UA照合に加えてIPを突き合わせれば本物か判別できます（出典: OpenAI bots）。Anthropic はIPブロックを推奨しておらず、robots.txt を読めなくなり逆効果になります（出典: Anthropic crawler）。Geo Index の「AIクローラー・アクセス診断」は、この一連の確認を自動化し、誤ブロックや未到達を検出します。

診断で確実に読まれていると確認できたら、その本文を引用されやすい形に仕上げる段階です。書き方はLLMに読まれ引用される記事構成の作り方が参考になり、誤ブロックの予防はAIクローラーの誤ブロックを防ぐ、制御の基本はrobots.txtでAIクローラーを制御する方法を参照してください。

AIクローラーのアクセスを診断する手順

目次

AIクローラーのアクセスはどう診断するのか

診断の手順

つまずきやすい点

関連記事