AIクローラーのアクセスを診断する手順
AIクローラーのアクセスはどう診断するのか
サーバーログでAIボットへのエラー応答を調べ、CloudflareのBot設定を点検し、GA4のAI参照と突き合わせる、という3段で診断します。設定上の許可ではなく、実際に読めているかを確かめるのが目的です。
robots.txt を許可しても、CDNやレート制限で弾かれていれば引用は生まれません。だから「設定」ではなく「ログに残った実際の応答」から見ます。
診断の手順
- サーバーログを開き、OAI-SearchBot・ChatGPT-User・ClaudeBot・Claude-User・Claude-SearchBot・Googlebot などのUser-Agentを抽出する。
- それらのボットへの応答コードを確認する。403 Forbidden や 429 Too Many Requests が出ていれば、実質ブロックされている。
- Cloudflare を使っている場合、Security の Bots(Control AI Crawlers)でAIスクレイパーのブロックが有効になっていないか点検する。
- GA4 のAI参照トラフィック(utm_source=chatgpt.com など)と突き合わせ、クロールはされているのに参照が伸びていない箇所を探す。
この手順の根拠は Mersel の整理にあり、ログで OAI-SearchBot・PerplexityBot・Claude-User への403応答を確認し、CloudflareのControl AI Crawlers を点検するよう勧めています(出典: How to Block or Allow AI Bots)。
つまずきやすい点
偽のボットを本物と取り違えるのが代表的な失敗です。User-Agent 名は誰でも詐称できるため、UA文字列だけで判断すると診断を誤ります。
OpenAI は GPTBot・OAI-SearchBot・ChatGPT-User の公開IPリストをJSONで公開しており、UA照合に加えてIPを突き合わせれば本物か判別できます(出典: OpenAI bots)。Anthropic はIPブロックを推奨しておらず、robots.txt を読めなくなり逆効果になります(出典: Anthropic crawler)。Geo Index の「AIクローラー・アクセス診断」は、この一連の確認を自動化し、誤ブロックや未到達を検出します。
診断で確実に読まれていると確認できたら、その本文を引用されやすい形に仕上げる段階です。書き方はLLMに読まれ引用される記事構成の作り方が参考になり、誤ブロックの予防はAIクローラーの誤ブロックを防ぐ、制御の基本はrobots.txtでAIクローラーを制御する方法を参照してください。