常用监控指标

本文介绍了使用Web应用防火墙日志服务发起查询/分析时常用的监控指标及其含义。您可以将这些指标用于告警配置条件中,自定义监控业务的异常情况。本文也提供了在告警配置中建议使用的监控指标阈值和指标异常时的处理建议。

监控指标

释义

建议阈值

处理建议

200

服务器已成功处理请求,返回了请求的数据。

初始化正常业务时,200状态码的告警监控阈值可以配置为90%,具体根据实际业务情况调整。

如果发现低于监控比例,需要分析比例下降的原因,例如是否因为其他错误状态码比例增加。

request_time_msec

客户端请求到返回结果的请求耗时。

按实际业务请求所需耗时,设置合适的超时告警监控阈值。

如果发现域名请求耗时较长,需要检查客户端-WAF-源站整体网络链路质量,并排查源站响应状态是否正常。

upstream_response_time

请求回源时,源站返回数据的响应时间。

ssl_handshake_time

HTTPS协议请求时,客户端与WAFSSL握手时间。

status:302 and block_action:tmd/status:200 and block_action:tmd

人机校验JS请求状态码,302表示触发默认策略,200表示触发自定义CC防护策略。

初始化时,建议配置5%~10%的告警阈值比例,后续运营期间可以根据业务拦截情况灵活调整。

  • 如果达到告警阈值,建议分析是否受到CC攻击,根据攻击情况设置自定义规则。

  • 检查服务器是否出现异常,如大量的5xx状态码、4xx状态码。

status:200 and block_action:antifraud

被数据风控规则拦截。

测试可用后再上线,如弹出率过高,说明场景可能有问题,建议联系阿里云研发团队进行确认。

status:404

服务器找不到请求的资源。

查询触发告警的IP。

  • 如果是个例,则可能存在恶意用户遍历服务器资源。

  • 如果是普遍存在,则需要确认服务器是否正常或者是否有文件丢失。

status:405

Web应用防护规则或精准访问控制规则拦截。

通过全量日志分析拦截的规则、请求行为,判断是正常拦截还是误拦截。

status:444

WAF CC自定义规则拦截。

  • 如果达到告警阈值,建议分析是否受到CC攻击,根据攻击情况设置自定义规则。

  • 如果不是攻击,而是API调用,则需要判断是否需要调整阈值或者单独放行固定服务器的调用。

status:499

客户端发起请求,服务端未返回数据,超过客户端设置的等待时间后,客户端主动断链,服务端返回给客户端该状态码。

  • 检查源站是否异常,如响应缓慢,数据库存在大量慢查询。

  • 存在攻击将源站资源占满。

status:500

(Internal Server Error)服务器内部错误,无法完成请求。

建议检查源站处理资源负载、数据库等情况。

status:502

(Bad Gateway)错误网关, 服务器作为网关或代理,从上游服务器收到无效响应。一般由于回源网络质量变差、回源链路有访问控制拦截回源请求导致源站无响应。

  • 建议检查回源网络链路、回源链路中间的访问控制策略、源站处理资源负载、数据库等情况。

  • 检查源站是否拦截了WAF回源IP的请求。

status:503

(Service Unavailable)服务不可用,由于超载或停机维护,服务器目前无法使用。

建议检查源站是否异常。

status:504

(Gateway Timeout)网关超时,服务器作为网关或代理,但是没有及时从上游服务器收到请求。

根据以下可能的原因进行排查:

  • 服务器无法响应,负载过高。

  • 源站丢弃请求没有reset。

  • 协议通讯不成功。