密码机监控与报警

本文介绍如何查看密码机实例及集群的监控指标,并根据监控指标设置云监控报警。

功能概述

  • HSM监控可分为实例监控和集群监控,分别对HSM的CPU、内存、TCP、健康度和集群的同步状态进行监控。

  • HSM监控可帮助您了解HSM使用情况,为风险预警方案的制定提供辅助参考。

  • 可通过观察指标的波动曲线发现异常风险点,搭配相应的报警机制及时通知相关人员处理故障,保障业务的正常运行,为业务的稳定性提供保障。

  • 当异常发生时还可以通过观察异常的监控指标,帮助您快速定位异常原因。

查看实例或集群监控指标

指标统计周期为5分钟,即每5分钟统计1次数据。最多支持您查看30天内的监控项指标数据。

  1. 访问加密服务控制台的实例列表页面,在顶部菜单栏,选择目标地域。

  2. 单击实例ID,在详情页面查看实例监控信息集群监控信息image

  3. (可选)打开右上角自动刷新开关,HSM会每隔1分钟自动刷新监控数据。

实例监控信息

说明

下表中的一键报警规则,是HSM内置的通用报警规则,默认关闭,您可以在页面右上角单击一键报警直接开启。

监控项

指标含义

是否支持报警

一键报警规则

一键报警级别

CPU使用率

密码机实例CPU使用率,单位为百分比。

密码机实例的CPU使用率连续5个周期大于85%时,触发告警通知。

警告(WARN)

内存使用率

密码机实例内存使用率,单位为百分比。

密码机实例的内存使用率连续5个周期大于85%时,触发告警通知。

警告(WARN)

TCP连接数

密码机实例建立的TCP连接的数量。

密码机实例建立的TCP连接连续5个周期大于200时,触发告警通知。

通知(Info)

HSM健康度

密码机实例是否正常运行。取值:

  • 1:密码机正常运行。

  • 0:密码机非正常运行。

非正常运行时可能原因如下。

  • 硬件故障:物理组件损坏或故障。

    说明

    该场景下系统会自动漂移健康实例,即系统会自动将健康实例与故障实例分离,以保护正常功能,确保安全性或稳定性。

  • 网络问题:HSM与网络的连接是否正常,是否中断。

  • 软件问题:可能是固件或驱动程序中的错误。

  • 电源中断:HSM可能因电源问题而无法正常工作。

  • 过热:过高的温度可能导致设备性能降低或损坏。

当实例健康度连续5个周期取值为0时,触发告警通知。

警告(WARN)

集群监控信息

说明

下表中的一键报警规则,是HSM内置的通用报警规则,默认关闭,您可以在页面右上角单击一键报警直接开启。

监控项

指标含义

是否支持报警

一键报警规则

一键报警级别

同步状态

集群是否同步。取值:

  • 1:集群正常,主子密码机摘要一致。

  • 0:集群不同步,包括主子密码机摘要不一致、配置不一致、集群同步失败等异常情况。

连续5个周期取值为0时,即密码机集群不同步,触发告警通知。

通知(Info)

设置监控指标报警

方式一:在HSM开启一键报警(推荐)

HSM内置了通用报警规则,默认关闭,具体报警规则内容,请参见本文中实例监控信息、集群监控信息表格中的介绍。

说明

该方式的报警接收人,默认为系统创建的云账号报警联系人,如需修改请到云监控控制台修改。具体操作,请参见修改报警联系人或报警联系组

  1. 访问加密服务控制台的实例列表页面,在顶部菜单栏,选择目标地域。

  2. 单击实例ID,在实例监控信息集群监控信息页签的右上角,单击一键报警并打开开关。

    说明
    • 开启一键报警后,报警规则会作用于当前阿里云账号下的所有HSM实例。

    • 如果您之前开启过一键报警,并修改了报警规则。再次开启一键报警时,报警规则会恢复到系统默认的报警规则。

    image

  3. (可选)禁用、修改、删除系统默认的报警规则。

    如果您只针对部分监控指标设置报警,或者需要设置更精细化的报警规则,可以禁用、修改报警规则。

  4. 处理报警通知。

    • 实例监控指标报警:请联系阿里云技术支持。

    • 集群监控指标报警:触发报警后,建议您在实例列表页面,单击集群同步,同步集群中主子密码机的数据。

方式二:在云监控设置报警

  1. 单击设置报警规则,跳转到云监控控制台。image

  2. 报警规则页面,单击创建报警规则完成配置。具体操作,请参见创建报警规则

    为实例创建报警规则时,产品请选择加密服务-实例维度,为集群创建报警规则时,产品请选择加密服务-集群维度无数据处理方式建议选择发送无数据报警

  3. 处理报警通知。

    • 实例监控指标报警:请联系阿里云技术支持。

    • 集群监控指标报警:触发报警后,建议您在实例列表页面,单击集群同步,同步集群中主子密码机的数据。

开启“无数据报警”(推荐)

背景

无论是默认报警规则还是自定义报警规则,都是通过对监控指标设置阈值触发告警,当监控指标数据为空时会影响阈值判断,从而影响告警的及时性和正确性。云监控针对监控指标无数据情况,提供了三种处理方式不做任何处(默认),发送无数据报视为恢复推荐您开启发送无数据报警,即监控指标为空时触发告警,通知联系人介入确认情况,便于您及时处理故障。

操作步骤

  1. 步骤一:在实例监控信息集群监控信息页签的右上角,单击设置报警规则条进入云监控控制台。

    image

  2. 步骤二:选择要修改的报警规则,单击操作栏修改按钮。

    image.png

  3. 步骤三:开启发送无数据报警

    image (1).png

说明

如果是自定义报警规则,可在新建时完成发送无数据报警的设置。

相关文档

如何查看以及管理报警规则,请参见管理报警规则