通过Robots协议屏蔽搜索引擎抓取网站内容

通过Robots协议屏蔽搜索引擎抓取网站内容

贡献者:

KB小秘书

 · 

更新时间:2020-06-28 11:25:40

提示: 这是一篇由阿里云ACE开发者(Alibaba Cloud Engineer)贡献,针对特定用户问题发布的文章。文档的内容以原稿呈现,阿里云对于文档内容不做任何形式的承诺。阿里云有权在未经通知的情形下对文档内容做出任何形式的修改。

概述

Robots协议(也称为爬虫协议、机器人协议等)的全称是网络爬虫排除标准(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。若有些页面访问消耗性能比较高,不希望被搜索引擎抓取,可以在根目录下存放robots.txt文件,屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。

详细信息

阿里云提醒您:

  • 如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。
  • 如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,建议提前创建快照或开启RDS日志备份等功能。
  • 如果您在阿里云平台授权或者提交过登录账号、密码等安全信息,建议您及时修改。

robots.txt文件的参数配置说明

  • User-agent:*:搜索引擎种类,*代表所有的搜索引擎种类,是一个通配符。
  • Disallow: /admin/:这里定义是禁止爬取admin目录下面的目录。
  • Disallow: /require/:这里定义是禁止爬取require目录下面的目录。
  • Disallow: /ABC/:这里定义是禁止爬寻ABC目录下面的目录。
  • Disallow: /cgi-bin/*.htm:禁止访问/cgi-bin/目录下的所有以.htm为后缀的URL(包含子目录)。
  • Disallow: /?:禁止访问网站中所有包含问号(?)的网址。
  • Disallow: /.jpg$:禁止抓取网页所有.jpg格式的图片。
  • Disallow:/ab/adc.html:禁止爬取ab目录下面的adc.html文件。
  • Allow: /cgi-bin/:这里定义是允许爬取cgi-bin目录下面的目录。
  • Allow: /tmp:这里定义是允许爬取tmp整个目录。
  • Allow: .htm$:仅允许访问以.htm为后缀的URL。
  • Allow: .gif$:允许抓取网页和.gif格式图片。
  • Sitemap:网站地图,告诉爬虫这个页面是网站地图。

示例

  • 示例一:禁止所有搜索引擎访问网站的任何资源。
    User-agent: *
    Disallow: /
  • 示例二:允许所有搜索引擎访问任何资源。
    User-agent: *
    Allow: /
    说明:也可以建一个/robots.txt空文件,Allow的值设置为/robots.txt
  • 示例三:禁止某个搜索引擎的访问。
    User-agent: BadBot
    Disallow: /
  • 示例四:允许某个搜索引擎的访问。
    User-agent: Baiduspider
    allow: /

适用于

  • 云虚拟主机
  • 241

    发布KB

  • 651

    回答问题

  • 11

    粉丝数