本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。
当密码机(HSM)的运行状态或性能出现波动时,如果无法及时感知,可能会影响业务稳定甚至导致服务中断。通过加密服务提供的监控与报警功能,可以实时掌握实例与集群的健康度、性能负载等关键指标,并设置报警规则,从而在异常发生时及时获得通知,保障业务的连续性和稳定性。
功能概述
HSM监控提供实例与集群两个维度的监控服务,分别支持基础监控(覆盖CPU使用率、内存使用率、TCP连接数、HSM健康度以及集群同步状态)和TPS监控等核心指标。对HSM资源使用与运行状态进行全面洞察,为主动风险预警和容量规划提供数据支持。其核心价值在于:
风险预警:通过分析指标趋势,可及时发现潜在的运行风险。集成的报警机制能够迅速将故障通知相关人员,以保障业务的连续性和稳定性。
故障定位:在发生异常时,详尽的监控数据有助于快速定位问题根源,缩短故障排查时间。
查看实例或集群监控指标
最多支持您查看30天内的监控项指标数据。
操作步骤
访问加密服务控制台的虚拟密码机实例页面,在顶部菜单栏,选择目标地域。
单击实例ID,在详情页面查看实例监控信息和集群监控信息。
选择查询时间范围,密码机监控数据的统计周期(粒度)会随选择的查询时间范围而变化。
查询时间范围
数据统计周期
1小时、3小时、6小时、12小时
5分钟
1天
10分钟
3天
30分钟
7天
60分钟
7天以上至30天
120分钟
(可选)打开右上角自动刷新开关,HSM会每隔1分钟自动获取最新的监控数据。
监控信息详解
实例监控信息
基础监控
说明基础监控为所有指标提供全面的报警能力,既支持开箱即用的一键报警规则,也支持设置自定义报警规则。
一键报警策略的统计周期默认为五分钟。
监控项
指标含义
一键报警规则(默认报警策略)
CPU使用率
密码机实例的CPU占用百分比。
告警级别: 警告 (WARN)
触发规则: CPU使用率连续5个周期 > 85%。
内存使用率
密码机实例的内存占用百分比。
告警级别: 警告 (WARN)
触发规则: 内存使用率连续5个周期 > 85%。
TCP连接数
密码机实例已建立的TCP连接总数。
告警级别: 通知 (Info)
触发规则: TCP连接数连续5个周期 > 200。
HSM健康度
反映密码机实例的运行状态。
1:运行正常
0:运行异常,更多内容请参见HS健康度为0(密码机运行异常)。
告警级别: 警告 (WARN)
触发规则: 健康度连续5个周期为 0。
TPS监控
重要仅适用于中国内地区域的密码机。
不支持一键报警,需登录云监控控制台设置自定义报警规则。
监控项
指标含义
对称算法
实例执行各类对称算法操作的性能数据,包含:AES 运算、SM1 运算、SM4 运算。
SM2
实例执行 SM2 算法各类操作的性能数据,包含:密钥生成、 加密 / 解密、签名 / 验签。
RSA
实例执行 RSA 算法各类操作的性能数据,包含:密钥对生成、公钥运算、私钥运算。
ECC
实例执行 ECC 算法各类操作的性能数据,包含:密钥对生成、签名 / 验签。
哈希算法
实例执行哈希计算的性能数据。
集群监控信息
基础监控
说明基础监控为所有指标提供全面的报警能力,既支持开箱即用的一键报警规则,也支持在云监控设置自定义报警规则。
一键报警策略的统计周期默认为五分钟。
监控项
指标含义
一键报警规则(默认报警策略)
同步状态
集群是否同步。取值:
1:集群正常,主子密码机摘要一致。
0:集群不同步,包括主子密码机摘要不一致、配置不一致、集群同步失败等异常情况。
告警级别: 通知(Info)
触发规则: 连续5个周期取值为0。
TPS监控
重要仅在集群内所有实例支持TPS监控(即均为中国内地区域的密码机)时可用。
不支持一键报警,需通过云监设置自定义报警规则。
监控项
指标含义
对称算法
集群内所有实例执行各类对称算法操作的TPS总和,包含:AES 运算、SM1 运算、SM4 运算。
SM2
集群内所有实例执行 SM2 算法各类操作的TPS总和,包含:密钥生成、 加密 / 解密、签名 / 验签。
RSA
集群内所有实例执行 RSA 算法各类操作的TPS总和,包含:密钥对生成、公钥运算、私钥运算。
ECC
集群内所有实例执行 ECC 算法各类操作的TPS总和,包含:密钥对生成、签名 / 验签
哈希算法
集群内所有实例执行哈希(摘要)计算的TPS总和。
设置监控指标报警
方式一:在HSM开启一键报警
HSM内置了对基础监控默认通用报警规则,具体报警规则内容,请参见监控信息详解。
开启一键报警后,报警规则会作用于当前阿里云账号下的所有HSM实例。
如果之前开启过一键报警,并修改了报警规则,再次开启一键报警时,报警规则会恢复到系统默认的报警规则。
访问加密服务控制台的虚拟密码机实例页面,在顶部菜单栏,选择目标地域。
单击实例ID,在实例监控信息和集群监控信息页签的右上角,单击一键报警。
配置报警规则
打开一键报警开关。
修改规则内容(可选):如果只针对部分监控指标设置报警,或者需要设置更精细化的报警规则,可以禁用、修改报警规则。
说明一键报警规则的报警接收人,默认为系统创建的云账号报警联系人,如需修改其成员信息,请到云监控控制台修改。具体操作,请参见修改报警联系人或报警联系组。
开启发送无数据报警(可选)
单击设置报警规则,跳转到云监控控制台,并定位至目标默认报警规则。
单击操作栏修改按钮。
修改无数据处理方法为发送无数据报警。
方式二:在云监控设置报警
在实例监控信息和集群监控信息页签的右上角,单击设置报警规则,跳转到云监控控制台。
在报警规则页面,参考创建报警规则完成配置。部分配置说明如下:
产品:加密服务-实例维度或加密服务-集群维度。
无数据处理方法:建议选择发送无数据报警,避免监控指标数据为空时会影响阈值判断,从而影响告警的及时性和正确性。
处理报警通知
常见的报警处理方法如下:
HSM健康度为0(密码机运行异常)
常见原因如下:
硬件故障: 内部物理组件(如处理器、内存、加密卡等)损坏或失灵。
说明该场景下系统将自动隔离故障实例,以保障整体服务的连续性和安全。
软件/固件缺陷: 设备固件、驱动程序或管理软件存在错误(Bug),导致功能异常或无响应。
网络连接问题: 与应用服务器或网络设备间的连接中断、延迟过高或不稳定。
供电问题: 电源中断、电压不稳或供电设备故障,导致设备无法启动或意外关闭。
运行环境异常: 设备运行温度过高、湿度不当或通风散热不畅,影响其性能与稳定性。
解决方案:
初步诊断:立即在加密服务控制台查看该实例的状态是否为“运行中”。同时,检查阿里云状态页或站内信,确认当前地域是否存在服务故障或计划内维护。
网络排查:检查应用服务器与密码机实例所属VPC的安全组和网络ACL规则,确保服务端口的网络访问是通畅的。
CPU/内存使用率过高
关联分析:在监控页面,对比出问题时间段的CPU使用率和TPS监控曲线。
如果CPU与TPS同步升高,通常是业务流量高峰导致,属于正常现象。
如果TPS不高但CPU高,可能是应用正在执行大量复杂的密钥生成或非对称加解密操作。
分类处理:
短期应对:若是业务流量突增导致,评估是否需要临时增加集群节点以分担压力。
长期优化:若是应用调用逻辑问题,需进行代码优化。若为长期性容量不足,请及时进行扩容。
集群同步状态异常:若为人工同步类型的中国内地密码机集群,可先在实例列表页面,单击同步集群,尝试手动同步。
配额与限制
数据保留期:监控数据最长可查看和存储30天。
地域与功能限制:
TPS监控:仅适用于中国内地区域的密码机实例。
集群TPS监控:仅当集群内所有实例均为中国内地区域的密码机时可用。
报警配置:TPS监控指标不支持“一键报警”,必须通过云监控设置自定义报警规则。