通过阿里云云监控对边缘安全加速 ESA中接入站点的运行状况进行实时监控,并在异常出现时自动发送报警通知,提升业务风险抵御能力。
背景
ESA暂不支持实时告警能力,在实际运维中当业务异常(如流量突增、命中率骤降、安全事件)时,仅能通过人工巡检发现,导致平均故障发现时间延长,可能致使运维团队无法在黄金时间内接入,造成业务连续性损失。
云监控(CloudMonitor)提供了企业级一站式监控解决方案,涵盖IT设施基础监控、外网网络质量拨测监控以及基于事件、自定义指标和日志的业务监控,为云上用户带来高效、全面、经济的监控服务,提升系统服务可用时长并降低IT运维监控成本。
方案原理
在云监控中配置ESA的报警规则,即可对接入ESA站点的各维度指标进行监控,符合报警规则时,通过邮件、短信、电话等方式进行即时报警。
云监控监听ESA节点上的所有请求与响应数据。
传入的数据根据指标库进行统计并通过报表展示
数据指标传入报警系统,到达报警阈值后触发相应通知到报警联系人。
监测方案
通过对响应带宽、客户端请求流量、累计请求次数、源站响应码等典型指标值可以检测来自外部的异常访问或内部源站的异常。您可以参考以下几个典型指标的配置示例来配置合适您业务需求的监控规则。
监控ESA响应带宽
响应带宽作为边缘服务的关键监控指标,其重要性在于直接反映服务端真实负载状态:
当遭遇CC攻击或缓存穿透时,恶意请求会显著增加动态内容生成或回源压力,导致响应数据量异常增长。
当出现自然流量下降、IP误拦截时,可能导致响应数据量异常低迷。
通过监测该指标变化,可提前发现并识别异常,为后续配置安全防护策略提供可靠依据。
前提条件
请确保待监控的站点已接入ESA,可参考将域名快速接入ESA。
第一步:配置云监控报警联系人组
配置ESA的云监控服务之前,为了保证报警信息能正常通知到相关人员需要先创建报警接收人组。
在云监控控制台,选择报警联系人,单击报警联系人页面的创建联系人。
在弹出的设置报警联系人页面完成姓名、邮箱、手机号等相关信息填写,报警通知服务的区域使用默认选择。
完成页面中的滑块认证并单击确认即可。
重复以上步骤将所有干系信息添加至报警联系人。选择报警联系组页签,点击新建联系人组,勾选联系人后点击
将之加入组群单击确认即可。
第二步:配置云产品监控
完成报警联系人配置后,接下来需要为ESA进行报警指标相关配置。
在云监控控制台,选择云产品监控,在搜索框输入
ESA
后回车,单击边缘安全加速(ESA)。在云产品边缘安全加速(ESA)页面,单击创建报警规则,资源范围选择实例,单击添加实例按钮勾选需要添加的站点域名。
接下来需要添加相应的报警规则。继续在创建报警规则页面单击添加规则,选择智能阈值,系统会学习站点的历史数据生成上下点阈值。
在设置规则描述页面填写相应参数:
自定义填写规则名称,如
rule-bandwidth
。监控指标选择ESA响应带宽。
报警条件选择边界以外,即可同时检测异常高和异常低的情况。
通常可将报警敏感度选择中,后续根据报警情况调整敏感度。
为确保报警规则在站点的指定DNS记录上生效,可以在维度下拉框选择对应的记录,不选择则监控站点下所有记录。
说明系统会自动检测记录的实际运行情况,仅当对应记录处于启用并有正常访问流量时可选。若您已在ESA中添加记录但无法在维度中选择到,可以依照上述方式进行排查。
最后在报警联系人组下拉选择第一步创建的组群,单击确定即可完成报警规则创建。
监控源站4xx或5xx响应码
持续追踪源站返回的4xx/5xx响应码,可有效识别源站异常状态。4xx错误数异常上升通常反映业务逻辑缺陷或恶意探测行为(如非法路径扫描),而5xx错误数上升则直接反映服务端处理能力不足或故障(如资源耗尽、依赖服务中断),可以为快速诊断源站可用性风险提供关键判据。
前提条件
请确保待监控的站点已接入ESA,可参考将域名快速接入ESA。
第一步:配置云监控报警联系人组
配置ESA的云监控服务之前,为了保证报警信息能正常通知到相关人员需要先创建报警接收人组。
在云监控控制台,选择报警联系人,单击报警联系人页面的创建联系人。
在弹出的设置报警联系人页面完成姓名、邮箱、手机号等相关信息填写,报警通知服务的区域使用默认选择。
完成页面中的滑块认证并单击确认即可。
重复以上步骤将所有干系信息添加至报警联系人。选择报警联系组页签,点击新建联系人组,勾选联系人后点击
将之加入组群单击确认即可。
第二步:配置云产品监控
在云监控控制台,选择云产品监控,在搜索框输入
ESA
后回车,单击边缘安全加速(ESA)。在云产品边缘安全加速(ESA)页面,单击创建报警规则,资源范围选择实例,单击添加实例按钮勾选需要添加的站点域名。
接下来需要添加相应的报警规则。继续在创建报警规则页面单击添加规则,选择组合指标,可以同时在一个规则中监控多个指标。
在设置规则描述页面填写相应参数:
自定义填写规则名称,如
rule-code-info
。报警级别选择普通(Info),作为普通告警级别规则。
在多指标报警描述中,单击添加指标,分别添加源站状态码4xx比例和源站状态码5xx比例,根据业务情况设置比例,如
监控值 >= 1%
。说明状态码比例的基准可参考流量分析中源站状态码看板的各状态码比例。
为确保报警规则在站点的指定DNS记录上生效,可以在维度下拉框选择对应的记录,不选择则监控站点下所有记录。
说明系统会自动检测记录的实际运行情况,仅当对应记录处于启用并有正常访问流量时可选。若您已在ESA中添加记录但无法在维度中选择到,可以依照上述方式进行排查。
多指标关系字段用于配置各指标间的逻辑关系,选择或逻辑——有一个满足条件就报警(||)。
为保证报警规则触发的敏感度,可在报警阈值触发次数中选择合适的周期,通常可设置为连续5个周期。
可以依照上述步骤继续添加不同报警级别的规则,通常配置的梯度可为:普通级别
监控值>= 1%
、告警级别监控值>= 3%
、紧急级别监控值>= 5%
。最后在报警联系人组下拉选择第二步创建的组群,单击确定即可完成报警规则创建。
方案验证
完成监测方案中的报警规则创建后,阿里云云监控将会对您绑定的站点进行实时监测,可以在云监控控制台概览页获取报警信息。以触发ESA响应带宽异常为例,可在概览页获取当前报警总数以及报警历史详情。
同时报警联系组中的对应报警人将会收到邮件或短信等方式的告警通知。
邮件告警示例 | 短信告警示例 |