如果您的问题仍未解决,点击我要提问试试。
云虚拟主机被爬虫访问耗费大量流量的解决方法
问题描述
用户使用云虚拟主机搭建的网站被爬虫访问,耗费大量流量和带宽的处理方法。
解决方案
阿里云提醒您:
- 如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。
- 如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,建议提前创建快照或开启RDS日志备份等功能。
- 如果您在阿里云平台授权或者提交过登录账号、密码等安全信息,建议您及时修改。
在站点根目录下创建robots.txt文件,robots.txt文件是网站的一个文件,搜索引擎抓取网站数据时,首先就是抓取的该文件,根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制爬虫的抓取路径。
说明:robots协议也叫robots.txt,robots协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。
根据更多信息中的搜索引擎和其对应的User-Agent,Robots.txt代码样例如下所示:
-
- 禁止所有搜索引擎访问网站的任何位置。
User-agent:
Disallow: / - 允许所有的搜索引擎访问网站的任何位置。
User-agent:
Disallow: - 仅禁止Baiduspider搜索引擎访问您的网站。
User-agent: Baiduspider
Disallow: / - 仅允许Baiduspider访问您的网站。
User-agent: Baiduspider
Disallow: - 禁止spider搜索引擎访问特定目录。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/说明:
- 特定三个目录需要分别并列写。
- 请注意最后需要带斜杠。
- 允许访问特定目录中的部分URL,实现a目录下只有b.htm允许访问。
User-agent: *
Allow: /a/b.htm
Disallow: /a/
- 禁止所有搜索引擎访问网站的任何位置。
更多信息
目前搜索引擎和其对应的User-Agent如下所示。
搜索引擎 | User-Agent |
AltaVista | Scooter |
baidu | Baiduspider |
Infoseek | Infoseek |
Hotbot | Slurp |
AOL Search | Slurp |
Excite | ArchitextSpider |
Googlebot | |
Goto | Slurp |
Lycos | Lycos |
MSN | Slurp |
Netscape | Googlebot |
NorthernLight | Gulliver |
WebCrawler | ArchitextSpider |
Iwon | Slurp |
Fast | Fast |
DirectHit | Grabber |
Yahoo Web Pages | Googlebot |
LooksmartWebPages | Slurp |
适用于
- 云虚拟主机