【初心者向け!】robots.txtについて知ろう!

こんにちは。
デザイナーの佐竹です。

今回は「robots.txt」というファイルについて簡単にご紹介します。
検索ロボット(クローラー)への命令文を記述できる「robots.txt」は、クロール最適化には欠かせないアイテムです。
では、早速どのようなものかまとめていきたいと思います。

robots.txtとは

検索エンジンのクローラー(ロボット)のWEBページのへのアクセスを制限するためのファイルで、ロボットに向けた命令文(アクセスを許可/許可しない)を記述します。自分のサイト内の特定のディレクトリ以下を検索対象から外すことができます。

ドメインごとにクローラーが訪問するページ数には限りがあるのだそうです!!
そのため、限られたページ数の中で、重要なページに多くクロールしてもらう必要があります。
つまり、クローラーが限られた訪問数を浪費せず、重要なページにより多く訪問してもらうことがrobots.txtの役割です。

robots.txtの記述方法

まず初めに、ファイル名は「robots.txt」とします。
「Robots.txt」や「robot.txt」は間違いです。気を付けましょう。
ファイルの置き場所はルート(サイトの一番上の階層)に置きます。

続いて、記述方法をご紹介します。

User-agent: *   (←すべてのロボットに対して)
Disallow:/wp-admin/  (←WordPressのログインページURLをアクセス制御)
Disallow:/text/  (←テストサイトのURLをアクセス制御)

上記の場合はテストフォルダ、ログイン画面のページをクローラーが巡回しないよう指定しています。

Sitemap:http://www.*********/sitemap.xml

こちらの例は、XMLサイトマップのURLを指定してクローラーの巡回を促しています。

また、注意点としては、robots.txtで指定したファイルは、インデックスされないというだけでアクセスできないわけではありません。
特定の人以外には見せたくないページの場合は、robots.txtの設定プラス、ベーシック認証の設定をしましょう。

ちなみに、WordPressではrobots.txtもベーシック認証もプラグインで簡単に設定可能です。