ちょっと誤解してた部分もあったので、自分のためにもrobots.txtを作成する上での注意点をまとめてみました。
注意1 robots.txtとは?
クローラーに自分のウェブサイトのどこにアクセスしてはいけないかを教えることができるテキストファイル。
注意2 robots.txtのファイル名
ファイル名は「robots.txt」
「robot.txt」でもなく「Robots.txt」でもない。
注意3 robots.txtを置く場所。
あなたのウェブサイトのトップフォルダに置く。
例えば、http://example.comがトップページだった場合、http://example.com/robots.txtに置く。
注意4 robots.txtの書き方の基本的な例
User-agent: * Disallow: /forbidden/ Allow: /approve/
意味: すべてのクローラーに告ぐ。forbiddenフォルダにはアクセスしてはならない。しかし、approveはアクセスしてもよろしい。
注意5 Disallowの使い方。(末尾のスラッシュに注意)
①フォルダごとアクセスさせない場合は「Disallow: /forbidden/」と書き、末尾をスラッシュで閉じること。
「Disallow: /forbidden/」と書いた場合、http://example.com/forbidden/、http://example.com/forbidden/lover.html等がアクセス不能になる。
User-agent: * Disallow: /forbidden/
②先頭の文字が一致するページとフォルダをアクセスさせないようにするなら末尾にスラッシュを書かないこと。
「Disallow: /i」と書いた場合、http://example.com/i/はもちろん、http://example.com/index.htmlやhttp://example.com/iphoneもアクセスできなくなる。
User-agent: * Disallow: /i
③すべてのページのアクセスを許可しない場合はスラッシュのみ。
User-agent: * Disallow: /
注意6 Allowの使い方。(基本的に使わなくてもいい。)
Allowはアクセスの許可を意味する。しかし、Allowは基本的に使わなくてもよい。以下の例のように一旦すべてのアクセスを止めてから許可する場合でも無い限りほとんど不要。なぜなら、指定しないかぎり、すべてアクセスするというのが前提だから。
User-agent: * Disallow: / Allow: /approve/
意味: 全てのページのアクセスを許可しないが、approveのフォルダ内のページだけは許す。
注意7 サイトマップを指定する書き方。
「sitemap: http://example.com/sitemap.xml」と書くことで、サイトマップをボットにお知らせすることができる。
User-agent: * Disallow: /forbidden/ sitemap: http://example.com/sitemap.xml
注意8 複数のボットを指定する場合の例。
User-agent: Googlebot Disallow: /forbidden/ User-agent: Googlebot-Image Disallow: /terrible/
このように書くことで複数のボットへアクセスしないフォルダを指定できる。
注意9 robots.txtが上手く動作しているか確認できるウェブサービス
かならず、ここでrobots.txtが上手く動いているか確認しましょう。ログインして左の健全性のメニュー内にある「Fetch as Google」で各URLが上手くクロールされるか確認出来ます。
するぷはこう思った。
ちょっとした記述の間違いでも、大きくウェブサイトのアクセスを左右してしまいかねないので、robots.txtの取り扱いは注意しましょう。
上でも紹介したウェブマスターツールで確認しながら慎重に設置するとよいでしょう。
【参考】robots.txt ファイルを使用してページをブロックまたは削除する
【参考】robots.txtの書き方(保存版) | 海外SEO情報ブログ