2021.03.02 更新

robots.txtを作成する上で気をつけるべき9つの注意点

Sanko Seisakusyo robots

ちょっと誤解してた部分もあったので、自分のためにもrobots.txtを作成する上での注意点をまとめてみました。

注意1 robots.txtとは？

クローラーに自分のウェブサイトのどこにアクセスしてはいけないかを教えることができるテキストファイル。

ファイル名は「robots.txt」

「robot.txt」でもなく「Robots.txt」でもない。

あなたのウェブサイトのトップフォルダに置く。

例えば、http://example.comがトップページだった場合、http://example.com/robots.txtに置く。

User-agent: *
Disallow: /forbidden/
Allow: /approve/

意味: すべてのクローラーに告ぐ。forbiddenフォルダにはアクセスしてはならない。しかし、approveはアクセスしてもよろしい。

①フォルダごとアクセスさせない場合は「Disallow: /forbidden/」と書き、末尾をスラッシュで閉じること。

「Disallow: /forbidden/」と書いた場合、http://example.com/forbidden/、http://example.com/forbidden/lover.html等がアクセス不能になる。

User-agent: *
Disallow: /forbidden/

②先頭の文字が一致するページとフォルダをアクセスさせないようにするなら末尾にスラッシュを書かないこと。

「Disallow: /i」と書いた場合、http://example.com/i/はもちろん、http://example.com/index.htmlやhttp://example.com/iphoneもアクセスできなくなる。

User-agent: *
Disallow: /i

③すべてのページのアクセスを許可しない場合はスラッシュのみ。

User-agent: *
Disallow: /

Allowはアクセスの許可を意味する。しかし、Allowは基本的に使わなくてもよい。以下の例のように一旦すべてのアクセスを止めてから許可する場合でも無い限りほとんど不要。なぜなら、指定しないかぎり、すべてアクセスするというのが前提だから。

User-agent: *
Disallow: /
Allow: /approve/

意味: 全てのページのアクセスを許可しないが、approveのフォルダ内のページだけは許す。

「sitemap: http://example.com/sitemap.xml」と書くことで、サイトマップをボットにお知らせすることができる。

User-agent: *
Disallow: /forbidden/
sitemap: http://example.com/sitemap.xml

User-agent: Googlebot
Disallow: /forbidden/
User-agent: Googlebot-Image
Disallow: /terrible/

このように書くことで複数のボットへアクセスしないフォルダを指定できる。

ウェブマスターツール - ホーム
https://www.google.com/webmasters/tools/home

かならず、ここでrobots.txtが上手く動いているか確認しましょう。ログインして左の健全性のメニュー内にある「Fetch as Google」で各URLが上手くクロールされるか確認出来ます。

ちょっとした記述の間違いでも、大きくウェブサイトのアクセスを左右してしまいかねないので、robots.txtの取り扱いは注意しましょう。

上でも紹介したウェブマスターツールで確認しながら慎重に設置するとよいでしょう。

瀧内賢技術評論社 2012-10-11