本文介绍如何为云原生数据仓库AnalyticDB PostgreSQL版配置云监控报警,实时监控集群数据。系统在监控数据满足条件时,会通知报警联系组中的所有联系人。
背景信息
云监控报警是通过阿里云云监控实现的。通过云监控,您可以设置监控项,在触发监控项报警规则时,通知报警联系组中的所有联系人。您也可以维护报警监控项对应的报警联系组,以便发生报警时,能及时通知到相关联系人。
目前云监控的报警,分为阈值报警和事件报警,支持情况如下:
实例资源类型 | 阈值报警 | 事件报警 |
---|---|---|
资源弹性 | 支持 | 不支持 |
资源预留 | 支持 | 支持 |
说明 云监控的两种报警,都需要您手动配置才能接收报警。
查看监控数据
添加阈值报警
- 在云监控控制台上,将光标放在图表上,单击报警按钮,添加该指标的阈值报警。
- 在弹出的界面设置报警规则。单击添加报警规则,可添加多个报警规则,对多个指标设置报警。对每个指标会分别创建一个报警,如果有某个指标值超过阈值,就会触发报警。
- 监控项:资源弹性实例,选择【资源弹性】开头的监控项;资源预留实例,选择【资源预留】开头的监控项。关于监控项的具体信息和推荐值,请参见监控项与系统事件。
- 1分钟周期:是指把一个时间段内的监控数据聚合为1个监控数据点,然后使用聚合后的数据点和阈值做比较。目前云监控系统是1分钟1个监控数据点,设置1分钟周期,则只有一个数据点,不需要聚合;设置5分钟周期,则有5个数据点,需要把5个数据点聚合为1个数据点。
- 持续周期:以选择1分钟周期为例,若选择持续3个周期,则代表连续3分钟的监控数据超过阈值后触发报警。
- 平均值/最大值/最小值:若选择5分钟周期,则有5个数据点需要聚合,假设5个数据分别为10、20、30、40、50,平均值=30,最大值=50,最小值=10,您需要指定使用平均值、最大值或最小值与阈值做比较。
- instance_component:选择对所有的服务器/组件报警,还是对某个服务器/组件报警。
- 通道沉默周期:指报警发生后如果未恢复正常,间隔多久发送一次报警通知。
- 选择已有联系人组,或快速创建联系人组。
- 填写报警邮件内容(非必填)。
- 单击确定,跳转至阈值报警列表页面,完成阈值报警规则创建。
可在阈值报警列表,查看报警状态、报警历史、或者禁用报警。