web

robots.txt設定ガイド:検索エンジンにどう扱ってもらうか

記事内に広告が含まれています。

はるか
robots.txtは、検索エンジンのクローラーがどのページをクロールするかを指示するファイルだよ。

ふゅか
そうそう♪正しく設定すれば、クロールの効率化できるわ!

はじめに robots.txtとは?

ウェブサイトの運営者にとって、検索エンジンのクローラーがどのページをクロールするかを管理することは非常に重要です。そのための基本的なツールの一つが「robots.txt」ファイルです。このファイルを正しく設定することで、検索エンジンに対して自サイトのクロール方法を指示でき、結果的にSEO効果を最大化することができます。本記事では、robots.txtの基本からSEOへの影響、よくある間違いとその修正方法までを解説します。

robots.txtの書き方

robots.txtはテキストファイルで、ウェブサイトのルートディレクトリに配置します。

ふゅか
基本的な構文は簡単よ!例えば、すべてのクローラーに対して特定のディレクトリをクロールさせたくない場合は、こんな風に書くの♪
User-agent: *
Disallow: /private/
  • User-agent: 特定のクローラーを指定します。*はすべてのクローラーを意味します。
  • Disallow: 指定したディレクトリやページをクロールしないよう指示します。

例えば、Googlebotのみを制御する場合は次のように記述します。

User-agent: Googlebot
Disallow: /no-google/

この設定により、Googlebotは/no-google/ディレクトリ内のページをクロールしなくなります。

正規表現の活用方法

robots.txtでは、正規表現を用いてより柔軟なクロール制御を行うことができます。特に、複雑なURLパターンを指定する際に有効です。

例1: すべてのPDFファイルをクロール禁止にする場合

User-agent: *
Disallow: /*.pdf$

ここで、*.pdf$は、URLが「.pdf」で終わるファイルを示します。

例2: 特定のパターンに一致する複数のディレクトリを禁止する場合

User-agent: *
Disallow: /private*/

この設定では、/private1/, /private2/, /private-anything/のように、「private」で始まるすべてのディレクトリがクロール禁止になります。

はるか
https://example.com/no-google/が禁止されるということ。

SEOへの影響

robots.txtはSEOに直接影響を与えることがあります。特定のページをクロールさせないことで、重複コンテンツを避けたり、サイトのクロールバジェットを最適化したりできます。クロールバジェットとは、検索エンジンが一定期間内にクロールするページ数のことを指し、これを最適化することで重要なページが優先的にクロールされるようにするのです。

一方で、重要なページを誤ってクロール禁止にしてしまうと、検索エンジンのインデックスに載らなくなり、検索結果から除外されるリスクがあります。そのため、設定には慎重を期する必要があります。

よくある間違いとその修正方法

robots.txt設定でよく見られるミスには次のようなものがあります。

  1. 重要なページのDisallow:誤って主要なページやディレクトリをクロール禁止にしてしまうことがあります。修正するには、Disallow行を見直し、重要なページが含まれていないことを確認します。
  2. 相対パスの誤使用:パスの指定が曖昧な場合、クローラーが意図しない動作をすることがあります。トップのディレクトリを基準として、正確なパスを使用するようにしましょう。
  3. User-agentの指定ミス:特定のクローラーにのみ適用するつもりが、すべてのクローラーに適用されてしまうことがあります。各クローラーごとに正確にUser-agentを指定します。

User-agent: *
Disallow: /private/
User-agent: Googlebot
Allow: /

まとめ

robots.txtを効果的に管理するためのベストプラクティスとして、以下の点に注意しましょう。

  • 定期的な見直し:サイト構造の変更に伴い、robots.txtの内容も定期的に見直します。
  • テストツールの活用:Google Search Consoleのrobots.txtテスターを使用して、設定が正しく機能しているか確認します。
  • 最小限の制限:必要最小限のクロール制限に留め、検索エンジンが重要なページをクロールできるようにします。

はるか
最小限の制限で重要なページをクロールさせることも忘れずに。

ふゅか
Googleの公式ドキュメントも参考にしてね♪

-web