合法爬虫功能提供合法搜索引擎白名单(例如Google、Bing、百度、搜狗、Yandex等),为域名放行合法爬虫的访问请求。
前提条件
- 已开通Web应用防火墙实例,且实例满足以下要求:
- 包年包月实例:已开启Bot管理模块。更多信息,请参见开通Web应用防火墙。
- 按量计费实例:已在账单与套餐中心开启Bot管理模块下合法爬虫功能。更多信息,请参见账单与套餐中心(按量2.0版本)。
- 已完成网站接入。
更多信息,请参见网站接入概述。
背景信息
合法爬虫规则依据阿里云爬虫情报库,帮助您直接放行合法爬虫请求。阿里云爬虫情报库基于阿里云全网流量计算得出并可实时更新,涵盖合法爬虫访问请求来源的特征信息。合法爬虫支持主流搜索引擎的爬虫IP信息,可动态更新,目前包含Google、百度、搜狗、Bing、Yandex。
启用合法爬虫规则后,来自相关搜索引擎的合法爬虫IP将被直接放行,不经过Bot管理模块的防护检测。
说明 在Bot管理模块外,您还可以使用访问控制/限流规则进一步过滤来自于合法爬虫白名单IP的请求。更多信息,请参见设置自定义防护策略。