Google クローラ Agent
Googlebot(Google ウェブ検索) Googlebot
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)
ニュース用 Googlebot Googlebot-News
Googlebot-News
画像用 Googlebot Googlebot-Image
Googlebot-Image/1.0
動画用 Googlebot Googlebot-Video
Googlebot-Video/1.0
Google モバイル Googlebot-Mobile
「各種携帯端末」(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Google モバイル AdSense
Mediapartners-Google
「各種携帯端末」(compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdSense
Mediapartners-Google
Google AdsBot を使ったリンク先ページの品質確認
AdsBot-Google
AdsBot-Google (+http://www.google.com/adsbot.html)
robots.txt
robots.txt ファイルの中で、いくつものユーザーエージェントが見つかった場合は、最も限定的なものに従って Google のクロールが行われます。サイトのページをすべてクロールさせたい場合は、robots.txt ファイルを作成する必要はありません。一部のコンテンツに対して Google のクローラによるアクセスをブロックまたは許可する場合は、Googlebot をユーザーエージェントとして指定します。たとえば、サイトのページがどれも Google 検索結果に表示されるようにしたい場合や、AdSense の広告をサイトのページ上に表示したい場合は、robots.txt ファイルは必要ありません。同様に、一部のページに対して Google からのアクセスを一切ブロックしたい場合は、ユーザーエージェント Googlebot をブロックすると、Google の他のユーザーエージェントもすべてブロックされます。
さらに細かくコントロールしたい場合は、より限定的に指定します。たとえば、サイトのページが Google の検索結果に表示されるようにしたいけれども、/personal ディレクトリにある画像はクロールの対象外にしたい場合は、robots.txt を使用して、ユーザーエージェント Googlebot-image による /personal ディレクトリ内のファイルのクロールを禁止する(ただし、Googlebot にはすべてのファイルのクロールを許可する)ように指定します。次に例を示します:
User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow: /personal
別の例として、サイトのすべてのページに広告を表示したいけれども、ページを Google 検索結果には表示したくない場合は、次のように、Googlebot をブロックし、Mediapartners-Google によるアクセスは許可します:
User-agent: Googlebot
Disallow: /
User-agent: Mediapartners-Google
Disallow:
robots メタ タグ
ページによっては、次のように、複数の robots metaタグを使用してクローラごとにディレクティブが指定されていることもあります。
<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">
このような場合は、Google はすべての不許可ディレクティブに従います。つまり、Googlebot は noindex と nofollow の両方のディレクティブに従います。Google によるサイトのクロールとインデックス登録をコントロールする方法のさらに詳しい説明については、こちらをご覧ください。
https://support.google.com/webmasters/answer/1061943?hl=ja