总览

总览页面帮助您快速了解KMS实例的监控大盘,包含KMS实例规格、实例状态以及监控项指标等,您也可以配置报警规则监控这些指标项。本文介绍如何查看KMS实例的监控大盘以及如何配置云监控报警。

概述

重要

如果页面提示“当前实例版本过低,若要查看全量监控指标,请提交工单确认升级时间”,请您升级KMS实例的镜像版本

KMS支持和云监控集成,在总览页面为您展示监控项指标的趋势图。关于云监控的详细信息,请参见什么是云监控

您也可以根据业务的实际使用情况,设置云监控报警,提前识别并解决KMS使用中的问题。常见的报警规则设置项:

  • 请求数每秒的平均值已达到阈值的90%。关于性能数据的详细内容,请参见性能数据

    例如:您购买了计算性能规格为1000(次/秒)的软件密钥管理实例,可以设置连续3个周期实例总分钟请求数阈值到达54,000(1000次/秒*60秒*90%)时进行预警,表示该指标的平均值已经超过了实例性能所能承受的90%,此时建议您升级实例的规格扩展性能。

  • 连续3个周期出现4xx错误请求或5xx错误请求。

    4xx错误请求,一般是非法请求或指定资源不存在等原因,您可以根据错误提示进行排查。5xx一般是服务当前不可用,请稍后重试或联系阿里云技术支持人员。

前提条件

如果登录用户是RAM用户(子账号),需在RAM控制台将只读访问云监控的权限(AliyunCloudMonitorReadOnlyAccess)授予RAM用户。具体操作,请参见RAM用户授权

查看KMS实例总览和监控数据

  1. 登录密钥管理服务控制台,在顶部菜单栏选择地域后,在左侧导航栏单击总览页面。

  2. 选择实例ID后,可查看KMS实例总览和监控数据。

    说明

    最多支持您查看30天内的监控项指标数据。

  3. (可选)打开自动刷新开关,KMS会每隔1分钟自动刷新监控数据。image.png

配置监控指标报警

方案一:在KMS中设置一键报警

KMS内置了通用报警规则,默认关闭,但仅支持针对4xx错误请求5xx错误请求请求时延设置报警。如需为其他指标设置报警,请使用方案二。

说明

该方式的报警接收人,默认为系统创建的云账号报警联系人,如需修改请到云监控控制台修改。具体操作,请参见修改报警联系人或报警联系组

  1. 登录密钥管理服务控制台,在顶部菜单栏选择地域后,在左侧导航栏单击总览页面。

  2. 选择实例后,单击一键报警并打开开关。

    说明
    • 开启一键报警后,报警规则会作用于当前阿里云账号下的所有KMS实例。

    • 如果您之前开启过一键报警,并修改了报警规则。再次开启一键报警时,报警规则会恢复到系统默认的报警规则。

    image

  3. (可选)禁用、修改、删除系统默认的报警规则。

    如果您只针对部分监控指标设置报警,或者需要设置更精细化的报警规则,可以禁用、修改报警规则。image

方案二:在云监控中设置报警

  1. 登录密钥管理服务控制台,在顶部菜单栏选择地域后,在左侧导航栏单击总览页面。

  2. 总览页面单击设置报警规则,跳转到云监控控制台。image.png

  3. 报警规则页面,单击创建报警规则完成配置。具体操作,请参见创建报警规则

    创建报警规则时,产品请选择密钥管理服务

支持的云监控指标

监控项

指标含义

是否支持报警

聚合维度(dimensions)

统计方法(statistics)

实例分钟请求数

一分钟请求数。

userId,regionId,instanceId

Value

对称加解密分钟请求数

一分钟对称运算请求数。

userId,regionId,instanceId

Value

非对称加密分钟请求数

一分钟非对称加密请求数。

userId,regionId,instanceId

Value

非对称解密分钟请求数

一分钟非对称解密请求数。

userId,regionId,instanceId

Value

非对称签名分钟请求数

一分钟非对称签名请求数。

userId,regionId,instanceId

Value

非对称验签分钟请求数

一分钟非对称验签请求数。

userId,regionId,instanceId

Value

凭据运算分钟请求数

一分钟凭据请求数。

userId,regionId,instanceId

Value

其他分钟请求数

一分钟其他运算请求数。

userId,regionId,instanceId

Value

5xx 错误请求

一分钟5xx 错误码请求。

userId,regionId,instanceId

Value

4xx 错误请求

一分钟4xx 错误码请求。

userId,regionId,instanceId

Value

请求时延

一分钟所有请求时延均值。

userId,regionId,instanceId

Value

KMS实例CPU利用率

实例CPU利用率。

user_id,instance_id

Value

KMS实例对称QPS利用率

实例对称QPS利用率。

user_id,instance_id

Value

KMS实例非对称QPS利用率

实例非对称QPS利用率。

user_id,instance_id

Value

配置示例:KMS实例QPS监控报警

如果您希望观察KMS实例的QPS使用率并预警潜在性能瓶颈,以此判断是否需要升级KMS实例的规格,可以针对QPS相关的指标(实例分钟请求数)设置动态阈值告警。当实例分钟请求数到达规格的90%时,云监控进行报警。

KMS实例的QPS2000为例,实例分钟请求数提醒的阈值需要设置为2000(次/秒)*60(秒)*90%=108,000次,详细配置请流程请参见如下步骤。

  1. 登录密钥管理服务控制台,在顶部菜单栏选择地域后,在左侧导航栏单击总览页面。

  2. 总览页面单击设置报警规则,跳转到云监控控制台。

  3. 报警规则页面,单击创建报警规则,参考下表设置报警规则,然后单击确定

    配置项

    说明

    产品

    选择密钥管理服务

    资源范围

    选择实例

    关联资源

    单击添加资源,勾选要监控的KMS实例,然后单击确定

    规则描述

    image

    • 规则名称:自定义规则名称。

    • 指标类型:选择简单指标

    • 监控指标:选择实例分钟请求数,设置为警告,连续3个周期监控值>=108,000。

    通道沉默周期

    根据您的需求设置,通常保持默认24小时即可。

    如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知,如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    生效时间标签报警联系人组

    请根据您的实际情况填写。

    高级设置

    报警回调推送渠道恢复通知无数据处理方法,保持默认即可。

相关文档

KMS支持与云监控 CMS(Cloud Monitor)集成,提供系统事件的监控以及告警功能,详情可参见告警事件