aeolabaeolab
GPTBot・ClaudeBot完全ガイド — AIクローラーの仕組みとrobots.txt設定

GPTBot・ClaudeBot完全ガイド — AIクローラーの仕組みとrobots.txt設定

今日 · aeolab編集部

📌 TL;DR(冒頭結論)

GPTBot等のAIクローラーはJSを実行できずSSR必須。robots.txtで許可/ブロックを明示的に設定し、FAQ SchemaでAI引用を促しましょう。


AIクローラーとは何か?

AIクローラーは、ChatGPT・Claude・Perplexityといった大規模言語モデル(LLM)やAI検索エンジンが、Webサイトのコンテンツを収集するための自動巡回プログラムです。

従来のGooglebotとは目的が異なります。Googlebotは検索ランキングのためにページを評価しますが、AIクローラーはコンテンツを学習データや回答生成の素材として収集します。あなたのブログや製品ページがAIに「正確な情報源」として認識されるかどうかは、このクローラーがどう読み取るかで決まります。

主要AIクローラー一覧

クローラー名所有者User-Agent文字列主な役割
GPTBotOpenAIGPTBotChatGPTの学習データ収集・RAG用コンテンツ取得
ClaudeBotAnthropicClaudeBotClaudeの学習・回答生成用データ収集
PerplexityBotPerplexity AIPerplexityBotAI検索結果のリアルタイム引用元収集
Google-ExtendedGoogleGoogle-ExtendedGemini・Bard向けの追加学習データ収集
Meta-ExternalAgentMetameta-externalagentMeta AI(Llama系)向けデータ収集
Applebot-ExtendedAppleApplebot-ExtendedApple Intelligence向けコンテンツ収集

この表にあるクローラーはすべて、robots.txtのUser-agentディレクティブで個別に制御できます。

GPTBotはJavaScriptが読めない(重要)

多くのWebサイトがReact・Vue・Next.jsなどのJavaScriptフレームワークで構築されています。ここで重要な問題が生じます。GPTBotを含む現在のAIクローラーの大半は、JavaScriptを実行する能力を持っていません。

CSRのみのサイトはAIに読まれない

クライアントサイドレンダリング(CSR)のみで構築されたSPAでは、HTMLファイルにはほぼ中身がなく、JavaScriptが実行されて初めてコンテンツが表示されます。AIクローラーはJavaScriptを実行しないため、そのサイトのコンテンツは「空白のページ」として処理されます。

サーバーサイドレンダリング(SSR)が必須

Next.jsのgenerateStaticParamsやgetServerSidePropsを使ったSSR・SSG(静的サイト生成)なら、HTML自体にコンテンツが含まれるためAIクローラーが正しく読み取れます。

確認方法はシンプルです。ブラウザでページを開き、「JavaScriptを無効化した状態でコンテンツが表示されるか」を確認してください。表示されなければAIクローラーには読まれていません。

robots.txtでAIクローラーをブロックすべきか?

これは「正解がない」問いです。自社のコンテンツ戦略によって判断が変わります。

ブロックを検討すべき企業のケース

  • ペイウォードコンテンツを持つメディア: 有料記事をAIに無断学習されたくない場合
  • 価格情報・在庫データを扱うECサイト: リアルタイムデータが競合に活用されるリスク
  • 法律事務所・医療機関: 専門的なアドバイスを文脈なしで引用されると誤解を生む
  • 競合他社に先行されたくない情報: 独自調査・内部データ

許可を推奨する企業のケース

  • ブランド認知を高めたいB2Bサービス: ChatGPTやPerplexityで社名・製品名が引用されることがそのまま集客になる
  • コンテンツマーケティングに注力するメディア: AI引用 = 権威付けになる
  • 地域ビジネス: 「○○市でおすすめの△△」という質問にAIが答えるとき、あなたのサイトが引用されることが来店につながる

robots.txt記述例

全AIクローラーを許可(推奨: コンテンツマーケ型)

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

全AIクローラーをブロック(ペイウォード型)

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

特定ディレクトリだけブロック(折衷案)

User-agent: GPTBot
Disallow: /members/
Disallow: /premium/
Allow: /blog/
Allow: /about/

AIクローラーを引き込むための最適化

robots.txtで許可するだけでは不十分です。AIクローラーに「質の高いコンテンツ」として認識されるためには、コンテンツ自体の構造が重要です。

構造化データ(Schema.org)の実装

AIクローラーはSchema.orgのマークアップを解釈します。以下のスキーマが特に有効です。

  • FAQPage: Q&A形式のコンテンツをマークアップし、AI回答の直接引用を促します
  • Article: 著者・公開日・更新日を明示し、コンテンツの信頼性を示します
  • HowTo: 手順コンテンツをマークアップし、ステップ形式でのAI引用を促します

コンテンツの直接回答性

AIクローラーは、ユーザーの質問に対して直接答えているコンテンツを好みます。「〇〇とは何ですか?」という質問に対して、冒頭の段落で明確な定義を提示しているページは引用されやすい傾向があります。

ページ読み込み速度とクロール効率

AIクローラーにも、1サイトあたりのクロール時間に制限があります。ページの読み込みが遅いサイトは、クロールが途中で打ち切られる可能性があります。Core Web Vitalsの改善はSEOだけでなくAEO観点でも重要です。

日本のWebサイトへの影響

日本語コンテンツを持つサイトでは、日本語でのAI検索クエリへの対応が重要です。ChatGPTやPerplexityが日本語で回答する際、日本語で書かれたWebページが優先的に参照されます。

特に注意すべき点として、AIクローラーがサイトを正しく読み取れていない場合、AI検索での引用機会を完全に失っていることになります。まずはGooglebotのクロールステータスをSearch Consoleで確認し、その後AIクローラーへの対応を進める順序が合理的です。

robots.txtの設定変更は即座に反映されるため、現在ブロックしているAIクローラーを許可に切り替えた場合、数日〜数週間でクローリングが始まります。AIに引用されるかどうかはコンテンツの質次第ですが、まずクローリングを許可しなければ何も始まりません。

よくある質問

AIクローラーをブロックするとSEOに影響しますか?

GoogleのSEOには直接影響しません。GooglebotとGPTBot等のAIクローラーは別個のプログラムです。ただし、AI検索(ChatGPT・Perplexity等)での引用機会を失うため、ブランド認知の観点では機会損失が生じます。

robots.txtを設定していない場合、AIクローラーはどう動作しますか?

robots.txtが存在しない、またはAIクローラーへの記述がない場合、基本的にすべてのクロールを許可したものとして扱われます。明示的にブロックしない限り、GPTBot等はサイトにアクセスします。

a

aeolab編集部

AEO・GEO・AIOを専門に海外情報を日本語で届けるメディアチーム。SEO歴10年以上のマーケターが監修。

@aeolab_jp