通过Robots协议屏蔽搜索引擎抓取网站内容
概述
Robots协议(也称为爬虫协议、机器人协议等)的全称是网络爬虫排除标准(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。若有些页面访问消耗性能比较高,不希望被搜索引擎抓取,可以在根目录下存放robots.txt文件,屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。
详细信息
阿里云提醒您:
- 如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。
- 如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,建议提前创建快照或开启RDS日志备份等功能。
- 如果您在阿里云平台授权或者提交过登录账号、密码等安全信息,建议您及时修改。
robots.txt文件的参数配置说明
- User-agent:*:搜索引擎种类,
*
代表所有的搜索引擎种类,是一个通配符。 - Disallow: /admin/:这里定义是禁止爬取
admin
目录下面的目录。 - Disallow: /require/:这里定义是禁止爬取
require
目录下面的目录。 - Disallow: /ABC/:这里定义是禁止爬寻ABC目录下面的目录。
- Disallow: /cgi-bin/*.htm:禁止访问
/cgi-bin/
目录下的所有以.htm
为后缀的URL(包含子目录)。 - Disallow: /?:禁止访问网站中所有包含问号(?)的网址。
- Disallow: /.jpg$:禁止抓取网页所有.jpg格式的图片。
- Disallow:/ab/adc.html:禁止爬取ab目录下面的adc.html文件。
- Allow: /cgi-bin/:这里定义是允许爬取
cgi-bin
目录下面的目录。 - Allow: /tmp:这里定义是允许爬取
tmp
整个目录。 - Allow: .htm$:仅允许访问以
.htm
为后缀的URL。 - Allow: .gif$:允许抓取网页和.gif格式图片。
- Sitemap:网站地图,告诉爬虫这个页面是网站地图。
示例
- 示例一:禁止所有搜索引擎访问网站的任何资源。
User-agent: *
Disallow: / - 示例二:允许所有搜索引擎访问任何资源。
User-agent: *
Allow: /说明:也可以建一个
/robots.txt
空文件,Allow的值设置为/robots.txt
。
- 示例三:禁止某个搜索引擎的访问。
User-agent: BadBot
Disallow: / - 示例四:允许某个搜索引擎的访问。
User-agent: Baiduspider
allow: /
适用于
- 云虚拟主机