robots.txtでAIクローラーを制御する方法
robots.txtでAIクローラーをどう制御するか
AIクローラーは目的別に分かれており、robots.txt でボットごとに個別制御できます。学習用クローラーを拒否しつつ、AI検索とユーザー取得用は許可するのが事業サイトの定石になりつつあります。
各社の公式ドキュメントによると、OpenAI は GPTBot(学習)・OAI-SearchBot(ChatGPT検索の索引)・ChatGPT-User(ユーザー操作時の取得)を独立して制御できます。Anthropic も ClaudeBot・Claude-User・Claude-SearchBot の3体制です(出典: OpenAI bots、Anthropic crawler)。
設定例(学習は拒否・検索は許可)
次は学習用を拒否し、AI検索とユーザー取得を許可する構成です。各UAは時々変わるため、適用前に各社公式で確認してください。
# 学習用クローラーを拒否(任意・IP保護目的)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# AI検索・ユーザー取得は許可(被引用のため)
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
Google-Extended は Gemini 等の生成AI学習向けのトークンで、これを Disallow しても通常のGoogle検索順位には影響しません。Googlebot は別物で、AI Overviews も Googlebot のインデックスを使うため許可したままにします。
つまずきやすい点
最大の失敗は OAI-SearchBot や Claude-SearchBot まで一括で拒否してしまうことです。これらを拒否すると、そのAIの検索回答に出なくなります。
OpenAI は、OAI-SearchBot をブロックしたサイトはChatGPT検索の回答に表示されないと明言しています(出典: OpenAI publishers FAQ)。Anthropic も Claude-SearchBot のブロックでサイトの可視性と正確性が下がりうると記載しています(同 Anthropic 公式)。robots.txt の変更がChatGPT検索へ反映されるまでは約24時間かかります。なお製品サイトやブランドサイトでは「全部許可」も合理的で、学習に載るほどブランドが正しく表現されやすくなります。学習拒否はIPや収益を守りたい場合の選択です。
許可設定を整えたうえで、読まれた本文がそのまま引用されるようLLMに読まれ引用される記事構成の作り方も合わせて押さえておくと効果が出やすくなります。設定が実際に効いているかはAIクローラーの誤ブロックを防ぐで、ボットごとの役割はAIクローラー一覧(8ボット体制)で確認してください。