云虚拟主机被爬虫访问耗费大量流量的解决方法

问题描述

用户使用云虚拟主机搭建的网站被爬虫访问,耗费大量流量和带宽的处理方法。

解决方案

阿里云提醒您:

  • 如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。
  • 如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,建议提前创建快照或开启RDS日志备份等功能。
  • 如果您在阿里云平台授权或者提交过登录账号、密码等安全信息,建议您及时修改。

在站点根目录下创建robots.txt文件,robots.txt文件是网站的一个文件,搜索引擎抓取网站数据时,首先就是抓取的该文件,根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制爬虫的抓取路径。

说明:robots协议也叫robots.txt,robots协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。

根据更多信息中的搜索引擎和其对应的User-Agent,Robots.txt代码样例如下所示:

    • 禁止所有搜索引擎访问网站的任何位置。
      User-agent:
      Disallow: /
    • 允许所有的搜索引擎访问网站的任何位置。
      User-agent:
      Disallow:
    • 仅禁止Baiduspider搜索引擎访问您的网站。
      User-agent: Baiduspider
      Disallow: /
    • 仅允许Baiduspider访问您的网站。
      User-agent: Baiduspider
      Disallow:
    • 禁止spider搜索引擎访问特定目录。
      User-agent: *
      Disallow: /cgi-bin/
      Disallow: /tmp/
      Disallow: /data/
      说明
      • 特定三个目录需要分别并列写。
      • 请注意最后需要带斜杠。
    • 允许访问特定目录中的部分URL,实现a目录下只有b.htm允许访问。
      User-agent: *
      Allow: /a/b.htm
      Disallow: /a/

更多信息

目前搜索引擎和其对应的User-Agent如下所示。

搜索引擎 User-Agent
AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN  Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit  Grabber
Yahoo Web Pages Googlebot
LooksmartWebPages Slurp

适用于

  • 云虚拟主机

如果您的问题仍未解决,点击我要提问试试。

阿里云首页 云虚拟主机 相关技术圈