密码机监控与报警

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

当密码机(HSM)的运行状态或性能出现波动时,如果无法及时感知,可能会影响业务稳定甚至导致服务中断。通过加密服务提供的监控与报警功能,可以实时掌握实例与集群的健康度、性能负载等关键指标,并设置报警规则,从而在异常发生时及时获得通知,保障业务的连续性和稳定性。

功能概述

HSM监控提供实例与集群两个维度的监控服务,分别支持基础监控(覆盖CPU使用率、内存使用率、TCP连接数、HSM健康度以及集群同步状态)和TPS监控等核心指标。对HSM资源使用与运行状态进行全面洞察,为主动风险预警和容量规划提供数据支持。其核心价值在于:

  • 风险预警:通过分析指标趋势,可及时发现潜在的运行风险。集成的报警机制能够迅速将故障通知相关人员,以保障业务的连续性和稳定性。

  • 故障定位:在发生异常时,详尽的监控数据有助于快速定位问题根源,缩短故障排查时间。

查看实例或集群监控指标

警告

最多支持您查看30天内的监控项指标数据。

操作步骤

  1. 访问加密服务控制台的虚拟密码机实例页面,在顶部菜单栏,选择目标地域。

  2. 单击实例ID,在详情页面查看实例监控信息集群监控信息

  3. 选择查询时间范围,密码机监控数据的统计周期(粒度)会随选择的查询时间范围而变化。

    查询时间范围

    数据统计周期

    1小时、3小时、6小时、12小时

    5分钟

    1

    10分钟

    3

    30分钟

    7

    60分钟

    7天以上至30

    120分钟

  4. (可选)打开右上角自动刷新开关,HSM会每隔1分钟自动获取最新的监控数据。

监控信息详解

实例监控信息

  • 基础监控

    说明
    • 基础监控为所有指标提供全面的报警能力,既支持开箱即用的一键报警规则,也支持设置自定义报警规则

    • 一键报警策略的统计周期默认为五分钟。

    监控项

    指标含义

    一键报警规则(默认报警策略)

    CPU使用率

    密码机实例的CPU占用百分比。

    • 告警级别: 警告 (WARN)

    • 触发规则: CPU使用率连续5个周期 > 85%。

    内存使用率

    密码机实例的内存占用百分比。

    • 告警级别: 警告 (WARN)

    • 触发规则: 内存使用率连续5个周期 > 85%。

    TCP连接数

    密码机实例已建立的TCP连接总数。

    • 告警级别: 通知 (Info)

    • 触发规则: TCP连接数连续5个周期 > 200。

    HSM健康度

    反映密码机实例的运行状态。

    • 告警级别: 警告 (WARN)

    • 触发规则: 健康度连续5个周期为 0。

  • TPS监控

    重要

    监控项

    指标含义

    对称算法

    实例执行各类对称算法操作的性能数据,包含:AES 运算、SM1 运算、SM4 运算。

    SM2

    实例执行 SM2 算法各类操作的性能数据,包含:密钥生成、 加密 / 解密、签名 / 验签。

    RSA

    实例执行 RSA 算法各类操作的性能数据,包含:密钥对生成、公钥运算、私钥运算。

    ECC

    实例执行 ECC 算法各类操作的性能数据,包含:密钥对生成、签名 / 验签。

    哈希算法

    实例执行哈希计算的性能数据。

集群监控信息

  • 基础监控

    说明
    • 基础监控为所有指标提供全面的报警能力,既支持开箱即用的一键报警规则,也支持在云监控设置自定义报警规则

    • 一键报警策略的统计周期默认为五分钟。

    监控项

    指标含义

    一键报警规则(默认报警策略)

    同步状态

    集群是否同步。取值:

    • 1:集群正常,主子密码机摘要一致。

    • 0:集群不同步,包括主子密码机摘要不一致、配置不一致、集群同步失败等异常情况。

    • 告警级别: 通知(Info)

    • 触发规则: 连续5个周期取值为0。

  • TPS监控

    重要
    • 仅在集群内所有实例支持TPS监控(即均为中国内地区域的密码机)时可用。

    • 不支持一键报警,需通过云监设置自定义报警规则

    监控项

    指标含义

    对称算法

    集群内所有实例执行各类对称算法操作的TPS总和,包含:AES 运算、SM1 运算、SM4 运算。

    SM2

    集群内所有实例执行 SM2 算法各类操作的TPS总和,包含:密钥生成、 加密 / 解密、签名 / 验签。

    RSA

    集群内所有实例执行 RSA 算法各类操作的TPS总和,包含:密钥对生成、公钥运算、私钥运算。

    ECC

    集群内所有实例执行 ECC 算法各类操作的TPS总和,包含:密钥对生成、签名 / 验签

    哈希算法

    集群内所有实例执行哈希(摘要)计算的TPS总和。

设置监控指标报警

方式一:在HSM开启一键报警

HSM内置了对基础监控默认通用报警规则,具体报警规则内容,请参见监控信息详解

重要
  • 开启一键报警后,报警规则会作用于当前阿里云账号下的所有HSM实例。

  • 如果之前开启过一键报警,并修改了报警规则,再次开启一键报警时,报警规则会恢复到系统默认的报警规则。

  1. 访问加密服务控制台的虚拟密码机实例页面,在顶部菜单栏,选择目标地域。

  2. 单击实例ID,在实例监控信息集群监控信息页签的右上角,单击一键报警

  3. 配置报警规则

    1. 打开一键报警开关。

    2. 修改规则内容(可选):如果只针对部分监控指标设置报警,或者需要设置更精细化的报警规则,可以禁用、修改报警规则。

      说明

      一键报警规则的报警接收人,默认为系统创建的云账号报警联系人,如需修改其成员信息,请到云监控控制台修改。具体操作,请参见修改报警联系人或报警联系组

  4. 开启发送无数据报警(可选)

    1. 单击设置报警规则,跳转到云监控控制台,并定位至目标默认报警规则。

    2. 单击操作栏修改按钮。

    3. 修改无数据处理方法发送无数据报警

方式二:在云监控设置报警

  1. 实例监控信息集群监控信息页签的右上角,单击设置报警规则,跳转到云监控控制台。

  2. 报警规则页面,参考创建报警规则完成配置。部分配置说明如下:

    • 产品加密服务-实例维度加密服务-集群维度

    • 无数据处理方法:建议选择发送无数据报警,避免监控指标数据为空时会影响阈值判断,从而影响告警的及时性和正确性。

处理报警通知

常见的报警处理方法如下:

  • HSM健康度为0(密码机运行异常)

    • 常见原因如下:

      • 硬件故障: 内部物理组件(如处理器、内存、加密卡等)损坏或失灵。

        说明

        该场景下系统将自动隔离故障实例,以保障整体服务的连续性和安全。

      • 软件/固件缺陷: 设备固件、驱动程序或管理软件存在错误(Bug),导致功能异常或无响应。

      • 网络连接问题: 与应用服务器或网络设备间的连接中断、延迟过高或不稳定。

      • 供电问题: 电源中断、电压不稳或供电设备故障,导致设备无法启动或意外关闭。

      • 运行环境异常: 设备运行温度过高、湿度不当或通风散热不畅,影响其性能与稳定性。

    • 解决方案:

      1. 初步诊断:立即在加密服务控制台查看该实例的状态是否为“运行中”。同时,检查阿里云状态页或站内信,确认当前地域是否存在服务故障或计划内维护。

      2. 网络排查:检查应用服务器与密码机实例所属VPC的安全组和网络ACL规则,确保服务端口的网络访问是通畅的。

  • CPU/内存使用率过高

    • 关联分析:在监控页面,对比出问题时间段的CPU使用率和TPS监控曲线。

      • 如果CPUTPS同步升高,通常是业务流量高峰导致,属于正常现象。

      • 如果TPS不高但CPU高,可能是应用正在执行大量复杂的密钥生成或非对称加解密操作。

    • 分类处理

      • 短期应对:若是业务流量突增导致,评估是否需要临时增加集群节点以分担压力。

      • 长期优化:若是应用调用逻辑问题,需进行代码优化。若为长期性容量不足,请及时进行扩容。

集群同步状态异常:若为人工同步类型的中国内地密码机集群,可先在实例列表页面,单击同步集群,尝试手动同步。

配额与限制

  • 数据保留期:监控数据最长可查看和存储30天。

  • 地域与功能限制

    • TPS监控:仅适用于中国内地区域的密码机实例。

    • 集群TPS监控:仅当集群内所有实例均为中国内地区域的密码机时可用。

  • 报警配置:TPS监控指标不支持“一键报警”,必须通过云监控设置自定义报警规则。