Google各个抓取工具蜘蛛的User-agent解析

由码匠 · 2011年05月9日

Google 的主要抓取工具称为 Googlebot。此表格列出了在引用页日志中常能见到的 Google 抓取工具的相关信息。

抓取工具	用户代理	HTTP(S) 请求用户代理
Googlebot（Google 网页搜索）	`Googlebot`	`Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html`) 或（较少使用）：`Googlebot/2.1 (+http://www.google.com/bot.html`)
Googlebot 新闻	`Googlebot-News` (`Googlebot`)	`Googlebot-News`
Googlebot 图片	`Googlebot-Image` (`Googlebot`)	`Googlebot-Image/1.0`
Googlebot 视频	`Googlebot-Video` (`Googlebot`)	`Googlebot-Video/1.0`
Google 移动	`Googlebot-Mobile`	[各种移动设备类型]（`compatible; Googlebot-Mobile/2.1`；`+http://www.google.com/bot.html`）
Google Mobile AdSense	`Mediapartners-Google` 或 `Mediapartners` (`Googlebot`)	[各种移动设备类型]（`compatible; Mediapartners-Google/2.1`；`+http://www.google.com/bot.html`）
Google AdSense	`Mediapartners-Google` `Mediapartners` (`Googlebot`)	`Mediapartners-Google`
Google AdsBot 目标网页质量检查	`AdsBot-Google`	`AdsBot-Google` (`+http://www.google.com/adsbot.html`)

robots.txt

如果 Google 在 robots.txt 文件中识别出多个用户代理，则它会跟踪最具体的用户代理。如果您希望 Google 的所有抓取工具都能够抓取您的网页，则根本不需要 robots.txt 文件。如果您希望禁止或允许 Google 的所有抓取工具访问您的某些内容，则只需将 Googlebot 指定为用户代理即可。例如，如果您希望自己所有的网页都显示在 Google 搜索中，并希望在自己的网页上显示 AdSense 广告，则不需要 robots.txt 文件。同样，如果您不希望 Google 的所有抓取工具访问您的某些网页，则可禁止用户代理 Googlebot（系统会同时禁止 Google 的其他所有用户代理）。

但是，如果您希望进行更精确的控制，则可以设置地更加具体。例如，您可能希望自己所有的网页都显示在 Google 搜索的结果中，但又不希望 Google 抓取您个人目录中的图片。在这种情况下，您可以使用 robots.txt 禁止用户代理 Googlebot-image 抓取您 /personal 目录中的文件（同时允许 Googlebot 抓取所有文件），具体如下：

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

User-agent: Googlebot

Disallow:

User-agent: Googlebot-Image

Disallow: /personal

再举个例子，假设您希望自己的所有网页上都显示广告，但不希望这些网页出现在 Google 搜索的结果中。这时，您可以禁止 Googlebot，同时允许 Mediapartners-Google，具体如下：

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-agent: Googlebot

Disallow: /

User-agent: Mediapartners-Google

Disallow:

漫游器元标记

某些网页会使用多个漫游器 meta 标记针对不同的抓取工具指定不同的指令，例如：

&lt;meta name="robots" content="nofollow"&gt;&lt;meta name="googlebot" content="noindex"&gt;

1	<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

在此示例中，Google 会综合使用所有的否定指令，因而 Googlebot 会同时遵循 noindex 和 nofollow 指令。

Google各个抓取工具蜘蛛的User-agent解析

robots.txt

漫游器元标记

您可能还喜欢...

个人简介

近期文章

友情链接

Google各个抓取工具蜘蛛的User-agent解析

robots.txt

漫游器元标记

您可能还喜欢...

SEO在线工具

WordPress基础SEO详细指南

SEO之meta name=”Robots” 用法

个人简介

近期文章

标签

友情链接