robots.txtを効果的に設定しよう

  • SEO
  • 現在地

このページは、「Google検索エンジン最適化スターターガイド」を参考にして、作成しております。

robots.txtとは

“robots.txt”とは、検索エンジンのロボットに対し、ファイルごとにクロールするかどうかの指示を記述したテキストファイルで、サイトのルートディレクトリに置かれるものです。

用途としては、メタタグの「name="robots"」と同様ですが、"robots.txt"は、ページごとの指定と同様に、全ページ一括に指定することもできます。

Googleにサイトを登録している方は、「Googleウェブマスターツール」にログインしてサイトを選択し、「サイト設定」→「クローラーのアクセス」→「robots.txtを生成」のページで作成できます。

書き方

以下は基本的な形です。なお、ページの指定は相対パスで行います。

  • User-agent: * またはユーザーエージェント名
  • Disallow: /クロールを拒否したいディレクトリ・ページ名

クロールを許可したい場合は、"Disallow: /"を"Allow: /"に変更します。

ユーザーエージェント名に、アスタリスク(*)を使用することで、全ロボットに対する指示となります。

"Disallow: "や"Allow: "の後の最初の「/」だけで、その後にページ名を指定しないと、サイト内の全ページを指定したこととなります。

なお、基本的にすべてのコンテンツをインデックスしたい場合は、Googleでは "robots.txt" は必要ないとのあります。
外部リンクrobots.txt ファイルを使用してページをブロックまたは削除する

ポイント

以下は、ガイド内のポイントを抜き出したものです。

慎重に扱うべきコンテンツにはより安全な方法を使用しよう
  • 検索結果のようなページはクロールさせない

    検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです

  • 同一か、ほとんど違いがない自動生成されたページを大量にクロールさせないようにする

    「重複コンテンツに近いこれら100,000ものページはインデックスされるべきだろうか?」と問い直してみましょう

  • プロキシサービスによって生成されたURLはクロールさせないようにする

    プロキシサービスによって生成されたURLはクロールさせないようにする

後書き

この"robots.txt"は、Robots Exclusion Standardという規約に基づいた検索エンジンに指示するものである以上、規約に準拠していない検索エンジンには無意味となります。

そのため、同様の効果を持つメタタグの「name="robots"」や、「.htaccess」も併せて使用した方がいいようです。

サイト内関連ページ : メタタグについて(検索ロボットの巡回に対する指定)

スポンサードリンク

inserted by FC2 system