查看hsm监控指标并设置报警-密钥管理服务(KMS)-阿里云帮助中心

当密码机（HSM）的运行状态或性能出现波动时，如果无法及时感知，可能会影响业务稳定甚至导致服务中断。通过加密服务提供的监控与报警功能，可以实时掌握实例与集群的健康度、性能负载等关键指标，并设置报警规则，从而在异常发生时及时获得通知，保障业务的连续性和稳定性。

功能概述

HSM监控提供实例与集群两个维度的监控服务，分别支持基础监控（覆盖CPU使用率、内存使用率、TCP连接数、HSM健康度以及集群同步状态）和TPS监控等核心指标。对HSM资源使用与运行状态进行全面洞察，为主动风险预警和容量规划提供数据支持。其核心价值在于：

风险预警：通过分析指标趋势，可及时发现潜在的运行风险。集成的报警机制能够迅速将故障通知相关人员，以保障业务的连续性和稳定性。
故障定位：在发生异常时，详尽的监控数据有助于快速定位问题根源，缩短故障排查时间。

查看实例或集群监控指标

警告

最多支持您查看30天内的监控项指标数据。

操作步骤

访问加密服务控制台的虚拟密码机实例页面，在顶部菜单栏，选择目标地域。
单击实例ID，在详情页面查看实例监控信息和集群监控信息。
选择查询时间范围，密码机监控数据的统计周期（粒度）会随选择的查询时间范围而变化。
查询时间范围
数据统计周期
1小时、3小时、6小时、12小时
5分钟
1天
10分钟
3天
30分钟
7天
60分钟
7天以上至30天
120分钟
（可选）打开右上角自动刷新开关，HSM会每隔1分钟自动获取最新的监控数据。

监控信息详解

实例监控信息

基础监控

说明

基础监控为所有指标提供全面的报警能力，既支持开箱即用的一键报警规则，也支持设置自定义报警规则。
一键报警策略的统计周期默认为五分钟。

监控项	指标含义	一键报警规则（默认报警策略）
CPU使用率	密码机实例的CPU占用百分比。	告警级别：警告 (WARN) 触发规则： CPU使用率连续2个周期 > 85%。
内存使用率	密码机实例的内存占用百分比。	告警级别：警告 (WARN) 触发规则：内存使用率连续2个周期 > 85%。
TCP连接数	密码机实例已建立的TCP连接总数。	告警级别：通知 (Info) 触发规则： TCP连接数连续2个周期 > 200。
HSM健康度	反映密码机实例的运行状态。 1：运行正常 0：运行异常，更多内容请参见HS健康度为0（密码机运行异常）。	告警级别：警告 (WARN) 触发规则：健康度连续2个周期为 0。

TPS监控

重要

仅适用于中国内地区域的密码机。
不支持一键报警，需登录云监控控制台设置自定义报警规则。

监控项	指标含义
对称算法	实例执行各类对称算法操作的性能数据，包含：AES 运算、SM1 运算、SM4 运算。
SM2	实例执行 SM2 算法各类操作的性能数据，包含：密钥生成、加密 / 解密、签名 / 验签。
RSA	实例执行 RSA 算法各类操作的性能数据，包含：密钥对生成、公钥运算、私钥运算。
ECC	实例执行 ECC 算法各类操作的性能数据，包含：密钥对生成、签名 / 验签。
哈希算法	实例执行哈希计算的性能数据。

集群监控信息

基础监控

说明

基础监控为所有指标提供全面的报警能力，既支持开箱即用的一键报警规则，也支持在云监控设置自定义报警规则。
一键报警策略的统计周期默认为五分钟。

监控项

指标含义

一键报警规则（默认报警策略）

同步状态

集群是否同步。取值：

1：集群正常，主子密码机摘要一致。
0：集群不同步，包括主子密码机摘要不一致、配置不一致、集群同步失败等异常情况。

告警级别： 通知（Info）
触发规则： 连续2个周期取值为0。

TPS监控

重要

仅在集群内所有实例支持TPS监控（即均为中国内地区域的密码机）时可用。
不支持一键报警，需通过云监设置自定义报警规则。

监控项	指标含义
对称算法	集群内所有实例执行各类对称算法操作的TPS总和，包含：AES 运算、SM1 运算、SM4 运算。
SM2	集群内所有实例执行 SM2 算法各类操作的TPS总和，包含：密钥生成、加密 / 解密、签名 / 验签。
RSA	集群内所有实例执行 RSA 算法各类操作的TPS总和，包含：密钥对生成、公钥运算、私钥运算。
ECC	集群内所有实例执行 ECC 算法各类操作的TPS总和，包含：密钥对生成、签名 / 验签
哈希算法	集群内所有实例执行哈希（摘要）计算的TPS总和。

设置监控指标报警

方式一：在HSM开启一键报警

HSM内置了对基础监控默认通用报警规则，具体报警规则内容，请参见监控信息详解。

重要

开启一键报警后，报警规则会作用于当前阿里云账号下的所有HSM实例。
如果之前开启过一键报警，并修改了报警规则，再次开启一键报警时，报警规则会恢复到系统默认的报警规则。

访问加密服务控制台的虚拟密码机实例页面，在顶部菜单栏，选择目标地域。
单击实例ID，在实例监控信息和集群监控信息页签的右上角，单击一键报警。
配置报警规则
1. 打开一键报警开关。
2. 修改规则内容（可选）：如果只针对部分监控指标设置报警，或者需要设置更精细化的报警规则，可以禁用、修改报警规则。
  说明
  一键报警规则的报警接收人，默认为系统创建的云账号报警联系人，如需修改其成员信息，请到云监控控制台修改。具体操作，请参见修改报警联系人或报警联系组。
开启发送无数据报警（可选）
1. 单击设置报警规则，跳转到云监控控制台，并定位至目标默认报警规则。
2. 单击操作栏修改按钮。
3. 修改无数据处理方法为发送无数据报警。

方式二：在云监控设置报警

在实例监控信息和集群监控信息页签的右上角，单击设置报警规则，跳转到云监控控制台。
在报警规则页面，参考创建报警规则完成配置。部分配置说明如下：
- 产品：加密服务-实例维度或加密服务-集群维度。
- 无数据处理方法：建议选择发送无数据报警，避免监控指标数据为空时会影响阈值判断，从而影响告警的及时性和正确性。

处理报警通知

常见的报警处理方法如下：

HSM健康度为0（密码机运行异常）
- 常见原因如下：
  - 硬件故障： 内部物理组件（如处理器、内存、加密卡等）损坏或失灵。
    说明
    该场景下系统将自动隔离故障实例，以保障整体服务的连续性和安全。
  - 软件/固件缺陷： 设备固件、驱动程序或管理软件存在错误（Bug），导致功能异常或无响应。
  - 网络连接问题： 与应用服务器或网络设备间的连接中断、延迟过高或不稳定。
  - 供电问题： 电源中断、电压不稳或供电设备故障，导致设备无法启动或意外关闭。
  - 运行环境异常： 设备运行温度过高、湿度不当或通风散热不畅，影响其性能与稳定性。
- 解决方案：
  1. 初步诊断：立即在加密服务控制台查看该实例的状态是否为“运行中”。同时，检查阿里云状态页或站内信，确认当前地域是否存在服务故障或计划内维护。
  2. 网络排查：检查应用服务器与密码机实例所属VPC的安全组和网络ACL规则，确保服务端口的网络访问是通畅的。
CPU/内存使用率过高
- 关联分析：在监控页面，对比出问题时间段的CPU使用率和TPS监控曲线。
  - 如果CPU与TPS同步升高，通常是业务流量高峰导致，属于正常现象。
  - 如果TPS不高但CPU高，可能是应用正在执行大量复杂的密钥生成或非对称加解密操作。
- 分类处理：
  - 短期应对：若是业务流量突增导致，评估是否需要临时增加集群节点以分担压力。
  - 长期优化：若是应用调用逻辑问题，需进行代码优化。若为长期性容量不足，请及时进行扩容。

集群同步状态异常：若为人工同步类型的中国内地密码机集群，可先在实例列表页面，单击同步集群，尝试手动同步。

配额与限制

数据保留期：监控数据最长可查看和存储30天。
地域与功能限制：
- TPS监控：仅适用于中国内地区域的密码机实例。
- 集群TPS监控：仅当集群内所有实例均为中国内地区域的密码机时可用。
报警配置：TPS监控指标不支持“一键报警”，必须通过云监控设置自定义报警规则。

查询时间范围	数据统计周期
1小时、3小时、6小时、12小时	5分钟
1天	10分钟
3天	30分钟
7天	60分钟
7天以上至30天	120分钟