如何设置爬虫威胁情报规则_Web应用防火墙(WAF)-阿里云帮助中心

爬虫威胁情报功能提供拨号池IP、IDC机房IP、恶意扫描工具IP以及云端实时模型生成的恶意爬虫库等多种维度的爬虫威胁情报规则，方便您在全域名或指定路径下设置阻断恶意爬虫的访问请求。

前提条件

已开通Web应用防火墙实例，且实例满足以下要求：
- 包年包月实例：已开启Bot管理模块。
- 按量计费实例：已在账单与套餐中心开启Bot管理模块下威胁情报功能。更多信息，请参见账单与套餐中心（按量2.0版本）。
已完成网站接入。具体操作，请参见使用教程。

爬虫威胁情报规则基于阿里云爬虫情报库，帮助您阻断来自威胁情报库的爬虫请求。阿里云爬虫情报库基于阿里云全网流量和威胁情报计算得出并实时更新，可有效检测恶意爬虫IP，并提供恶意访问请求来源的特征信息，目前已掌握超过700种已知Bot类型及对应特征。

说明阿里云爬虫情报库覆盖公有云和线下IDC网络。

您可以设置威胁情报规则，针对不同类型的威胁情报库选择不同的处置动作（例如直接拦截、进行JavaScript校验、弹出滑块验证或观察），也可以为某些关键接口配置针对特定类型威胁情报库的防护，以避免正常业务受到影响。

登录Web应用防火墙控制台。
在顶部菜单栏，选择Web应用防火墙实例的资源组和地域（中国内地、非中国内地）。
在左侧导航栏，选择防护配置 > 网站防护。
在网站防护页面上方，切换到要设置的域名。
单击Bot管理页签，定位到爬虫威胁情报区域，开启状态开关并单击前去配置。
说明爬虫威胁情报开启后，所有网站请求默认都会经过爬虫威胁情报规则的检测。您可以通过设置Bot管理白名单，让满足条件的请求忽略爬虫威胁情报规则的检测。更多信息，请参见设置Bot管理白名单。

在爬虫威胁情报规则列表中，根据情报名称选择要使用的威胁情报库，并在启用状态列，开启启用状态开关。

下表描述了支持的爬虫威胁情报库。


情报库	描述
扫描器恶意指纹库	通过流量分析，识别到的数万扫描器特征库。
恶意扫描IP情报库	基于阿里云全网实时检测到的恶意扫描行为攻击源IP进行分析，得到的动态IP情报库。
撞库IP情报库	基于阿里云全网实时检测到的撞库、暴力破解行为攻击源IP进行分析，得到的数十万动态IP情报库。
伪造蜘蛛情报库	识别爬虫程序伪造合法搜索引擎的user-agent（如BaiduSpider）来逃避检测的行为。重要开启该威胁情报库之前，请确保已经放行合法爬虫白名单，否则可能导致误拦截。更多信息，请参见设置合法爬虫规则。
恶意爬虫情报库	基于阿里云全网实时检测到的爬虫行为攻击源IP进行分析，得出的数百万动态IP情报库。该IP情报有低级、中级、高级三个等级。级别越高，对应的情报库内IP数量越多，相应的误判概率更大。说明建议您对高级情报库规则中风险等级为高级的规则（误报较多）设置二次校验（即使用滑块验证、JS校验等处置动作），避免误报。对二次校验不适用的场景（规则风险等级为低级），建议配置低级别的情报库规则。
IDC情报库	相关公有云和IDC机房的IP库，包括：阿里云、腾讯云、美团云、世纪互联、其他。这些IP段经常被爬虫用于部署爬虫程序或用作代理，而不会被正常用户使用。

开启默认规则后，当目标情报库内的来源IP向域名下任意路径发起访问请求时，一律触发观察处置，即放行请求同时进行记录。

如果您希望进一步调整默认规则（例如指定要防护的关键路径或者修改处置动作），请参照步骤 7自定义威胁情报规则。

可选：自定义威胁情报规则。

在编辑情报对话框，完成威胁情报规则的配置。


配置项	说明
防护路径	填写要防护的具体URL（例如“/abc”、“/login/abc”，“/”表示所有路径），并选择对应的匹配方式。可选值：精确匹配：访问地址与防护路径完全匹配时，会命中威胁情报规则。前缀匹配：访问地址与防护路径的前缀相同时，会命中威胁情报规则。正则匹配：访问地址满足防护路径的正则表达时，会命中威胁情报规则。单击新增防护路径可以添加最多10个路径。
处置动作	指定命中规则后的操作。可选值：观察：放行请求并进行记录。阻断：直接阻断访问请求。 JS验证：通过JavaScript校验请求数据，验证通过后放行请求。滑块：在客户端跳出滑块验证页面，客户端完成验证后放行请求。说明滑块验证仅支持同步请求，如有异步请求（如AJAX）防护需求请联系阿里云安全团队。如果不确定您防护的接口能否正常使用滑块验证，建议您先在自定义防护策略（ACL访问控制）中配置针对测试IP和URL的规则来验证和调试。更多信息，请参见设置自定义防护策略。严格滑块：在客户端跳出滑块验证页面，客户端完成验证后放行请求。滑块验证的通过标准更严格。