robots.txtとは
robots.txtとは
robots.txtとはクローラーロボットに対してディレクトリやファイル名ごとにブロックしたり、インデックスを許可しない指示を行うことができるファイルのことです。
GoogleやYahoo!などの検索エンジンには、主に情報収集や統計データを収取するために、検索エンジンのクローラー(Webページを監視するロボット)が巡回しています。
これによって、「このWebページはこういったコンテンツを提供している」と検索エンジンが認識(インデックス)するため、SEOに大きく関わる要因の一つと言えます。
ではなぜrobots.txtが必要なのでしょうか。
クローラーは内部リンクや被リンクを巡って対象のWebページに訪れるのですが、そもそもドメインごとにクローラーが訪問するページ数には限りがあります。
そこで、ドメインの中にある重要で訪問して欲しいWebページに誘導することで、限られたページを効率よくクロールしてもらい、SEO効果を高めることができるのです。
robots.txtの設定・設置方法
robots.txtの設置方法は、クローラーに訪問して欲しくないWebページの最上位ディレクトリにrobots.txtというファイル名でテキストファイルを置きます。
これをクローラーが認識してくれます。
robots.txtの設定方法としては、設置したrobots.txtのファイル内に
・クローラーの指定(Googleなど、どのクローラーを対象にするのか)
・クロールの禁止(クロールを禁止するファイル)
・クロールの許可(クロールを許可するファイル)
などを設定して完了です。
noindexとは
noindexとは
指定したWebページを検索エンジンにインデックスさせないようにし、検索結果に表示させないようにするためのタグです。
同じドメインの中に複数のページがあったとして、一部のページが低品質だったとしたら、そのページにつられて良質なページの評価までもが下がってしまい、全体的に弱いドメインなってしまう可能性があります。
noindexを利用することで良質なページだけインデックスさせりことで、Webサイトの評価が下がらないようにするのです。
noindexの設定方法
下記のコードを対象とするWebページであるHTMLのheadセクションに記述します。
<meta name=”robots” content=”noindex”>
※XHTMLで記述するときは、最後を「/>」で終了します。
robots.txtによるブロックとnoindexを併用してはいけない
Webページがインデックスされた際にrobot.txtでブロックしていると、検索エンジンがnoindexを設定されているページを読みにいくことができなくなります。
そうすると、いつまでたってもインデックスから削除されない可能性がありますので、その場合はまずnoindexを利用し、インデックスが削除されてからrobots.txtでクローラーの訪問をブロックするように設定しましょう。
ページをブロックしたい場合の使い分け
では実際にどういった場合にrobots.txtを利用し、どういった場合にnoindexを利用するのが適切なのでしょうか?
いずれも検索エンジンに向けたSEO対策で利用することが多いのですが、利用する目的が違います。
クローラーを効率良く訪問させるために、一部のWebページについて検索エンジンをブロックしたい場合にはrobots.txt、検索エンジンにインデックスさせないようにし、検索結果に表示させたくない場合にはnoindexを利用するといいでしょう。
ただし、上記はいずれも一般ユーザーはアクセスできてしまうため、一般のユーザーには見せたくない場合には、basic認証やIPアドレスによるアクセス制限を設定する必要がありますのでご注意ください。
メルマガでSEOのお役立ち情報を発信中!
robots.txt、noindexタグはどちらもクローラーの動きをコントロールするのに重要な要素です。
一方で間違った使い方をしてしまうと、サイトの流入減や順位の下落などにもつながってしまいます。
こうした基本的な情報やSEOの最新情報を常に手に入れておくことが、SEOにおいては重要な要素の一つです。
サクラサクラボではこうしたSEOの関連情報を無料のメルマガで発信中!
どなたでもお名前とメールアドレスのみで簡単に登録がいただけます!
↓↓↓メルマガ登録はコチラ↓↓↓