本文介绍如何查看密码机实例及集群的监控指标,并根据监控指标设置云监控报警。
功能概述
HSM监控可分为实例监控和集群监控,分别对HSM的CPU、内存、TCP、健康度和集群的同步状态进行监控。
HSM监控可帮助您了解HSM使用情况,为风险预警方案的制定提供辅助参考。
可通过观察指标的波动曲线发现异常风险点,搭配相应的报警机制及时通知相关人员处理故障,保障业务的正常运行,为业务的稳定性提供保障。
当异常发生时还可以通过观察异常的监控指标,帮助您快速定位异常原因。
查看实例或集群监控指标
指标统计周期为5分钟,即每5分钟统计1次数据。最多支持您查看30天内的监控项指标数据。
访问加密服务控制台的实例列表页面,在顶部菜单栏,选择目标地域。
单击实例ID,在详情页面查看实例监控信息和集群监控信息。
(可选)打开右上角自动刷新开关,HSM会每隔1分钟自动刷新监控数据。
实例监控信息
下表中的一键报警规则,是HSM内置的通用报警规则,默认关闭,您可以在页面右上角单击一键报警直接开启。
监控项 | 指标含义 | 是否支持报警 | 一键报警规则 | 一键报警级别 |
CPU使用率 | 密码机实例CPU使用率,单位为百分比。 | 是 | 密码机实例的CPU使用率连续5个周期大于85%时,触发告警通知。 | 警告(WARN) |
内存使用率 | 密码机实例内存使用率,单位为百分比。 | 是 | 密码机实例的内存使用率连续5个周期大于85%时,触发告警通知。 | 警告(WARN) |
TCP连接数 | 密码机实例建立的TCP连接的数量。 | 是 | 密码机实例建立的TCP连接连续5个周期大于200时,触发告警通知。 | 通知(Info) |
HSM健康度 | 密码机实例是否正常运行。取值:
非正常运行时可能原因如下。
| 是 | 当实例健康度连续5个周期取值为0时,触发告警通知。 | 警告(WARN) |
集群监控信息
下表中的一键报警规则,是HSM内置的通用报警规则,默认关闭,您可以在页面右上角单击一键报警直接开启。
监控项 | 指标含义 | 是否支持报警 | 一键报警规则 | 一键报警级别 |
同步状态 | 集群是否同步。取值:
| 是 | 连续5个周期取值为0时,即密码机集群不同步,触发告警通知。 | 通知(Info) |
设置监控指标报警
方式一:在HSM开启一键报警(推荐)
HSM内置了通用报警规则,默认关闭,具体报警规则内容,请参见本文中实例监控信息、集群监控信息表格中的介绍。
该方式的报警接收人,默认为系统创建的云账号报警联系人,如需修改请到云监控控制台修改。具体操作,请参见修改报警联系人或报警联系组。
访问加密服务控制台的实例列表页面,在顶部菜单栏,选择目标地域。
单击实例ID,在实例监控信息和集群监控信息页签的右上角,单击一键报警并打开开关。
说明开启一键报警后,报警规则会作用于当前阿里云账号下的所有HSM实例。
如果您之前开启过一键报警,并修改了报警规则。再次开启一键报警时,报警规则会恢复到系统默认的报警规则。
(可选)禁用、修改、删除系统默认的报警规则。
如果您只针对部分监控指标设置报警,或者需要设置更精细化的报警规则,可以禁用、修改报警规则。
处理报警通知。
实例监控指标报警:请联系阿里云技术支持。
集群监控指标报警:触发报警后,建议您在实例列表页面,单击集群同步,同步集群中主子密码机的数据。
方式二:在云监控设置报警
单击设置报警规则,跳转到云监控控制台。
在报警规则页面,单击创建报警规则完成配置。具体操作,请参见创建报警规则。
为实例创建报警规则时,产品请选择加密服务-实例维度,为集群创建报警规则时,产品请选择加密服务-集群维度。无数据处理方式建议选择发送无数据报警。
处理报警通知。
实例监控指标报警:请联系阿里云技术支持。
集群监控指标报警:触发报警后,建议您在实例列表页面,单击集群同步,同步集群中主子密码机的数据。
开启“无数据报警”(推荐)
背景
无论是默认报警规则还是自定义报警规则,都是通过对监控指标设置阈值触发告警,当监控指标数据为空时会影响阈值判断,从而影响告警的及时性和正确性。云监控针对监控指标无数据情况,提供了三种处理方式不做任何处(默认),发送无数据报、视为恢复。推荐您开启发送无数据报警,即监控指标为空时触发告警,通知联系人介入确认情况,便于您及时处理故障。
操作步骤
步骤一:在实例监控信息和集群监控信息页签的右上角,单击设置报警规则条进入云监控控制台。
步骤二:选择要修改的报警规则,单击操作栏修改按钮。
步骤三:开启发送无数据报警。
如果是自定义报警规则,可在新建时完成发送无数据报警的设置。
相关文档
如何查看以及管理报警规则,请参见管理报警规则。