高级监控报警服务为您所有区域的Elasticsearch集群提供全维度指标和日志监控分析服务,不仅为您提供了多个维度下的可视化监控数据,还支持您根据业务需要自定义监控大屏和报警规则。本文为您介绍如何使用日志报警功能配置报警。
前提条件
目前高级监控报警服务支持的地域包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、北京金融云、美国东部、美国西部、日本、印度尼西亚、中国香港,具体以控制台为准。
已创建钉钉机器人,针对机器人配置了OK和Alerting关键词,并且获取到机器人webhook,具体操作参考通过钉钉群接收报警通知。
熟悉Grafana监控大屏的使用方法。详细信息,请参见Grafana Dashboard。
使用限制
日志报警通知仅支持DingDing和Webhook两种方式,不支持其他方式。
钉钉机器人中自定义关键词必须是OK和Alerting,否则接收不到报警,如下图。
指标数据不支持配置Grafana报警。
操作流程
步骤一:进入高级监控报警页面
- 登录阿里云Elasticsearch控制台。
在左侧导航栏,单击高级监控报警。
步骤二:配置日志报警联系人相关信息
在高级监控报警页面的左侧导航栏中,选择 。
单击配置日志报警,进入Grafana页面。
单击左侧的图标,选择Notification channels。
单击Add channel,参考如下说明配置通知渠道。
参数
说明
Name
自定义报警名称。本操作中使用的样例值为test。
Type
仅支持DingDing和Webhook提醒,不支持其他方式。本操作中使用的样例值为DingDing。
Url
钉钉机器人Webhook路径。
Message Type
消息类型,仅支持Link。
单击Save,保存配置信息。
步骤三:配置日志报警规则
在高级监控报警页面的左侧导航栏中,选择 。
单击配置日志报警,进入Grafana页面。
使用报警模板配置日志报警规则(日志报警模板不支持直接编辑)。
在Grafana页面,单击监控模板上的图标。
在对话框中,单击Export页签。
单击View JSON。
单击Copy to Clipboard,复制JSON模板。
单击左侧图标,选择Import。
在Import via panel json中,粘贴JSON模板中默认的报警规则。
单击Load。
修改Name,并重新定义Unique identifier (uid)。
单击Import,即可完成模板的导入。
调整报警规则。
以配置慢查询耗时超阈值条数报警为例。
单击慢查询耗时超阈值条数,从下拉列表中选择Edit。
单击Query页签,设置查询条件。当满足该查询条件时,将触发报警检测机制。
单击Alert页签,设置Rule和Conditions。
说明系统默认报警规则为:每5分钟执行一次Query条件,在每一个过去的5分钟内,各时间点下慢查询耗时超过1000ms的日志条数平均值大于10条,且该状态持续超过1分钟,则系统上报告警。
Evaluate every为检测频率,最小值可配置1分钟,其他配置项无限制。
单击Send to后的图标,添加步骤二中已经配置好的日志报警联系人。
单击Save。
单击Apply。
说明配置中未提及的项,可使用默认值,也可按需配置,更高阶的报警配置可以参考Grafana官方文档
步骤四:查看日志报警规则
在高级监控报警页面的左侧导航栏中,选择 。
单击配置日志报警,进入Grafana页面。
单击左侧图标,选择Alert Rules,获取报警规则列表。
您还可以通过
查看成功配置的报警大盘。