robots.txtの記録
robots.txtの書き方
SEO設定
robots.txt ファイルが必要となるのは、サイトに検索エンジンのインデックスに登録したくないコンテンツが含まれる場合のみです。サイトのすべてのコンテンツを検索エンジンのインデックスに登録したい場合は、robots.txt ファイルは(空のものでも)必要ありません。
User-agent:
Disallow:
Allow:
一行空ける
Sitemap: http://hpapi.blogspot.com/feeds/posts/default?orderby=UPDATED
User-agent:例
User-agent: //クローラー
User-agent: * //全てのクローラー
User-agent: Mediapartners-Google //指定クローラー
User-agent: Googlebot-Image
User-agent: Googlebot
User-agent:例
Disallow //ブロック
Disallow: / //サイト全体をブロック
Disallow: /directory/ //指定ディレクトリ
Disallow: /file.html //指定ページ
Disallow: /*? //すべての URL へのアクセス
Disallow: /*.txt$ // すべての *.txt
Allow: 例
Allow: //クローラー許可
Allow:/directory/files.html //
基本的に下記でOKですが
User-agent: *
Disallow:
検索エンジンにクローラーされたくない時に
Disallow: /affiliate/
を追加します。
大手サイトの例
http://www.google.co.jp/robots.txt
http://jp.msn.com/robots.txt
https://www.facebook.com/robots.txt
https://twitter.com/robots.txt
http://www.rakuten.co.jp/robots.txt
User-Agent: *
Disallow: /images/ Disallow: /backup/ Disallow: /cgi-bin/ Disallow: /shops/ Shopsがロックされています。
参考
https://support.google.com/webmasters/answer/156449?hl=ja
追記:
サイト管理者やページ作者がクロールを防ぐ (制御する) 手段として ロボット除け規約 が定着しています. その設定方法には以下の2通りの方法があります.
- robots.txt ファイル
- あなたがサイト管理者で, 必要な権限を持っているなら, クローラへの指示を記述した /robots.txt というファイルをサイトのトップに 置いて下さい (http://www.your-site.com/robots.txt など). 例えば, 以下の記述は Steeler があなたのサイトからダウンロードするのを 全面的に 禁止します.
User-agent: Steeler
Disallow: /
- Disallow にはパス名の先頭部分 (プレフィックス) の他, ワイルドカード "*" や パス末尾を表す "$" を使うことができます. 例えば, 以下の記述は /images ディレクトリ以下のコンテンツとともに, 拡張子 .gif を持つコンテンツをアクセス禁止にします.
User-agent: Steeler
Disallow: /images/
Disallow: *.gif$
- アクセスの頻度が問題になる場合, Crawl-delay を指定して下さい. 例えば, 以下の記述はサイトへのアクセスの間隔を 少なくとも 30 秒空けるよう指示します.
User-agent: Steeler
Crawl-delay: 30.0
- Robots メタタグ
- あなたが HTML (テンプレート) のソースを編集できるなら, robots メタタグ を利用することもできます. HTML 文書のヘッダに
<META NAME="robots" CONTENT="noindex,nofollow">
- という行を記述すると, Steeler はその文書からのリンクを たどらなくなります.