robots.txt
本来の検索エンジンの動作方式
- インターネット検索エンジン排除標準(Robots Exclusion Protocol)である。
- クローラーというロボットがインターネットを巡回し、サイトの情報を収集する。
- インデクサーはクローラーが収集した情報を分析する。
- 分析されたデータを基に、検索エンジンごとのアルゴリズムに従って検索結果を返す。
robots.txt とは?
robots.txtは、クローラーに「クロールするページ」または「クロールしないページ」を知らせるテキストファイルである。- そのドメインの最上位ディレクトリに公開される。
robots.txtはまだ勧告であり、必ず守る義務はない。
robots.txt 形式
- User-agent: 検索ボット名
- Allow: アクセス許可設定(Googlebot のみに適用可能)
- Disallow: アクセス遮断設定
- Crawl-delay: 次回訪問までのディレイ(秒)
- Sitemap: サイトマップ指定
robots.txt 使用例
すべての検索ボットにすべての文書へのアクセスを許可
User-agent: *
Allow: /
* はすべてのロボットを意味し、/ はすべてのディレクトリを意味する。
すべての検索ボットにすべての文書へのアクセスを遮断
User-agent: *
Disallow: /
特定ディレクトリへのアクセスを許可
User-agent: Googlebot
Allow: /foo/bar/
特定ディレクトリへのアクセスを遮断
User-agent: Googlebot
Disallow: /foo/bar/
Googlebot だけ許可し、残りはすべて遮断
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
サイト負荷(パフォーマンス)の観点
クローラー巡回によってサイト負荷が増加する場合、robots.txt で重要ではない大量のコンテンツをクローラー巡回から除外し、サイト負荷を減らし、重要なコンテンツへの巡回効率を向上させることができる。
重要なコンテンツと重要ではないコンテンツを区別することは、SEO とサイト負荷の面でもよい。
重要ではないコンテンツには次のようなものがある。
- 検索エンジンにインデックスしなくてもよいページ
- 価値が低いコンテンツページ
- 同一コンテンツの複数ページ
- サイトに入れた広告のランディングページ
- 限定された人だけに公開したいページ
- 管理システムファイル
セキュリティ観点
robots.txt に「クロールしたいページ」または「クロールしないページ」を設定すると、限定された人だけに公開したいコンテンツが見えてしまうことがある。
robots.txt に管理システムファイルや限定公開ページを設定すると、検索エンジン結果には表示されないが、robots.txt には公開されるため直接見えてしまう。したがって、セキュリティ上重要な管理ファイルや特定の限定された人だけに公開したいページには、ログイン認証や IP アドレス制限など確実なアクセス制限を設ける必要がある。