
GPTBot・ClaudeBot完全ガイド — AIクローラーの仕組みとrobots.txt設定
今日 · aeolab編集部
📌 TL;DR(冒頭結論)
GPTBot等のAIクローラーはJSを実行できずSSR必須。robots.txtで許可/ブロックを明示的に設定し、FAQ SchemaでAI引用を促しましょう。
AIクローラーとは何か?
AIクローラーは、ChatGPT・Claude・Perplexityといった大規模言語モデル(LLM)やAI検索エンジンが、Webサイトのコンテンツを収集するための自動巡回プログラムです。
従来のGooglebotとは目的が異なります。Googlebotは検索ランキングのためにページを評価しますが、AIクローラーはコンテンツを学習データや回答生成の素材として収集します。あなたのブログや製品ページがAIに「正確な情報源」として認識されるかどうかは、このクローラーがどう読み取るかで決まります。
主要AIクローラー一覧
| クローラー名 | 所有者 | User-Agent文字列 | 主な役割 |
|---|---|---|---|
| GPTBot | OpenAI | GPTBot | ChatGPTの学習データ収集・RAG用コンテンツ取得 |
| ClaudeBot | Anthropic | ClaudeBot | Claudeの学習・回答生成用データ収集 |
| PerplexityBot | Perplexity AI | PerplexityBot | AI検索結果のリアルタイム引用元収集 |
| Google-Extended | Google-Extended | Gemini・Bard向けの追加学習データ収集 | |
| Meta-ExternalAgent | Meta | meta-externalagent | Meta AI(Llama系)向けデータ収集 |
| Applebot-Extended | Apple | Applebot-Extended | Apple Intelligence向けコンテンツ収集 |
この表にあるクローラーはすべて、robots.txtのUser-agentディレクティブで個別に制御できます。
GPTBotはJavaScriptが読めない(重要)
多くのWebサイトがReact・Vue・Next.jsなどのJavaScriptフレームワークで構築されています。ここで重要な問題が生じます。GPTBotを含む現在のAIクローラーの大半は、JavaScriptを実行する能力を持っていません。
CSRのみのサイトはAIに読まれない
クライアントサイドレンダリング(CSR)のみで構築されたSPAでは、HTMLファイルにはほぼ中身がなく、JavaScriptが実行されて初めてコンテンツが表示されます。AIクローラーはJavaScriptを実行しないため、そのサイトのコンテンツは「空白のページ」として処理されます。
サーバーサイドレンダリング(SSR)が必須
Next.jsのgenerateStaticParamsやgetServerSidePropsを使ったSSR・SSG(静的サイト生成)なら、HTML自体にコンテンツが含まれるためAIクローラーが正しく読み取れます。
確認方法はシンプルです。ブラウザでページを開き、「JavaScriptを無効化した状態でコンテンツが表示されるか」を確認してください。表示されなければAIクローラーには読まれていません。
robots.txtでAIクローラーをブロックすべきか?
これは「正解がない」問いです。自社のコンテンツ戦略によって判断が変わります。
ブロックを検討すべき企業のケース
- ペイウォードコンテンツを持つメディア: 有料記事をAIに無断学習されたくない場合
- 価格情報・在庫データを扱うECサイト: リアルタイムデータが競合に活用されるリスク
- 法律事務所・医療機関: 専門的なアドバイスを文脈なしで引用されると誤解を生む
- 競合他社に先行されたくない情報: 独自調査・内部データ
許可を推奨する企業のケース
- ブランド認知を高めたいB2Bサービス: ChatGPTやPerplexityで社名・製品名が引用されることがそのまま集客になる
- コンテンツマーケティングに注力するメディア: AI引用 = 権威付けになる
- 地域ビジネス: 「○○市でおすすめの△△」という質問にAIが答えるとき、あなたのサイトが引用されることが来店につながる
robots.txt記述例
全AIクローラーを許可(推奨: コンテンツマーケ型)
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
全AIクローラーをブロック(ペイウォード型)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
特定ディレクトリだけブロック(折衷案)
User-agent: GPTBot
Disallow: /members/
Disallow: /premium/
Allow: /blog/
Allow: /about/
AIクローラーを引き込むための最適化
robots.txtで許可するだけでは不十分です。AIクローラーに「質の高いコンテンツ」として認識されるためには、コンテンツ自体の構造が重要です。
構造化データ(Schema.org)の実装
AIクローラーはSchema.orgのマークアップを解釈します。以下のスキーマが特に有効です。
- FAQPage: Q&A形式のコンテンツをマークアップし、AI回答の直接引用を促します
- Article: 著者・公開日・更新日を明示し、コンテンツの信頼性を示します
- HowTo: 手順コンテンツをマークアップし、ステップ形式でのAI引用を促します
コンテンツの直接回答性
AIクローラーは、ユーザーの質問に対して直接答えているコンテンツを好みます。「〇〇とは何ですか?」という質問に対して、冒頭の段落で明確な定義を提示しているページは引用されやすい傾向があります。
ページ読み込み速度とクロール効率
AIクローラーにも、1サイトあたりのクロール時間に制限があります。ページの読み込みが遅いサイトは、クロールが途中で打ち切られる可能性があります。Core Web Vitalsの改善はSEOだけでなくAEO観点でも重要です。
日本のWebサイトへの影響
日本語コンテンツを持つサイトでは、日本語でのAI検索クエリへの対応が重要です。ChatGPTやPerplexityが日本語で回答する際、日本語で書かれたWebページが優先的に参照されます。
特に注意すべき点として、AIクローラーがサイトを正しく読み取れていない場合、AI検索での引用機会を完全に失っていることになります。まずはGooglebotのクロールステータスをSearch Consoleで確認し、その後AIクローラーへの対応を進める順序が合理的です。
robots.txtの設定変更は即座に反映されるため、現在ブロックしているAIクローラーを許可に切り替えた場合、数日〜数週間でクローリングが始まります。AIに引用されるかどうかはコンテンツの質次第ですが、まずクローリングを許可しなければ何も始まりません。
よくある質問
AIクローラーをブロックするとSEOに影響しますか?
GoogleのSEOには直接影響しません。GooglebotとGPTBot等のAIクローラーは別個のプログラムです。ただし、AI検索(ChatGPT・Perplexity等)での引用機会を失うため、ブランド認知の観点では機会損失が生じます。
robots.txtを設定していない場合、AIクローラーはどう動作しますか?
robots.txtが存在しない、またはAIクローラーへの記述がない場合、基本的にすべてのクロールを許可したものとして扱われます。明示的にブロックしない限り、GPTBot等はサイトにアクセスします。
関連記事
ChatGPTはWikipediaを信頼する — Wikipedia活用でAI引用を増やす実践ガイド
ChatGPTやGeminiはWikipediaを高く信頼します。Wikipediaページの作成・編集とWikidataの整備が、AI検索での自社ブランド引用率を高める最も確実な方法のひとつです。
今日
AEO対応の3ステップチェックリスト
構造化データ実装から E-E-A-T シグナル強化まで。今月中に対応すべき項目を3ステップで解説
今日
SEO 2026年の生存戦略|371人調査が示す3つの分岐点
Search Engine Journalが52カ国371人のSEO担当者を調査。AI検索時代に生き残る3つの戦略と、日本市場で今すぐ取るべきアクションを解説します。
今日