什么是Baiduspider?
Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。
Baiduspider的user-agent是什么?
百度各个产品使用不同的user-agent:
| 产品名称 | 对应user-agent |
| 无线搜索 | Baiduspider-mobile |
| 图片搜索 | Baiduspider-image |
| 视频搜索 | Baiduspider-video |
| 新闻搜索 | Baiduspider-news |
| 百度搜藏 | Baiduspider-favo |
| 百度联盟 | Baiduspider-cpro |
| 网页以及其他搜索 | Baiduspider |
-
如何判断是否冒充Baiduspider的抓取?
您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。
$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.
通过robots协议 屏蔽百度抓取网站或网站的某些页面
以下robots实现禁止所有来自百度的抓取:
User-agent: Baiduspider
Disallow: /
以下robots实现仅禁止来自百度视频搜索的抓取:
User-agent: Baiduspider-video
Disallow: /
以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:
User-agent: Baiduspider
Disallow: /
User-agent: Baiduspider-image
Allow: /image/
请注意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-cpro给您造成了困扰,请联系union1@baidu.com





