总览页面帮助您快速了解KMS实例的监控大盘,包含KMS实例规格、实例状态以及监控项指标等,您也可以配置报警规则监控这些指标项。本文介绍如何查看KMS实例的监控大盘以及如何配置云监控报警。
概述
如果页面提示“当前实例版本过低,若要查看全量监控指标,请提交工单确认升级时间”,请您升级KMS实例的镜像版本。
KMS支持和云监控集成,在总览页面为您展示监控项指标的趋势图。关于云监控的详细信息,请参见什么是云监控。
您也可以根据业务的实际使用情况,设置云监控报警,提前识别并解决KMS使用中的问题。常见的报警规则设置项:
请求数每秒的平均值已达到阈值的90%。关于性能数据的详细内容,请参见性能数据。
例如:您购买了计算性能规格为1000(次/秒)的软件密钥管理实例,可以设置连续3个周期实例总分钟请求数阈值到达54,000(1000次/秒*60秒*90%)时进行预警,表示该指标的平均值已经超过了实例性能所能承受的90%,此时建议您升级实例的规格扩展性能。
连续3个周期出现4xx错误请求或5xx错误请求。
4xx错误请求,一般是非法请求或指定资源不存在等原因,您可以根据错误提示进行排查。5xx一般是服务当前不可用,请稍后重试或联系阿里云技术支持人员。
前提条件
如果登录用户是RAM用户(子账号),需在RAM控制台将只读访问云监控的权限(AliyunCloudMonitorReadOnlyAccess)授予RAM用户。具体操作,请参见为RAM用户授权。
查看KMS实例总览和监控数据
登录密钥管理服务控制台,在顶部菜单栏选择地域后,在左侧导航栏单击总览页面。
选择实例ID后,可查看KMS实例总览和监控数据。
说明最多支持您查看30天内的监控项指标数据。
(可选)打开自动刷新开关,KMS会每隔1分钟自动刷新监控数据。
配置监控指标报警
方案一:在KMS中设置一键报警
KMS内置了通用报警规则,默认关闭,但仅支持针对4xx错误请求、5xx错误请求、请求时延设置报警。如需为其他指标设置报警,请使用方案二。
该方式的报警接收人,默认为系统创建的云账号报警联系人,如需修改请到云监控控制台修改。具体操作,请参见修改报警联系人或报警联系组。
登录密钥管理服务控制台,在顶部菜单栏选择地域后,在左侧导航栏单击总览页面。
选择实例后,单击一键报警并打开开关。
说明开启一键报警后,报警规则会作用于当前阿里云账号下的所有KMS实例。
如果您之前开启过一键报警,并修改了报警规则。再次开启一键报警时,报警规则会恢复到系统默认的报警规则。
(可选)禁用、修改、删除系统默认的报警规则。
如果您只针对部分监控指标设置报警,或者需要设置更精细化的报警规则,可以禁用、修改报警规则。
方案二:在云监控中设置报警
支持的云监控指标
监控项 | 指标含义 | 是否支持报警 | 聚合维度(dimensions) | 统计方法(statistics) |
实例分钟请求数 | 一分钟请求数。 | 是 | userId,regionId,instanceId | Value |
对称加解密分钟请求数 | 一分钟对称运算请求数。 | 是 | userId,regionId,instanceId | Value |
非对称加密分钟请求数 | 一分钟非对称加密请求数。 | 是 | userId,regionId,instanceId | Value |
非对称解密分钟请求数 | 一分钟非对称解密请求数。 | 是 | userId,regionId,instanceId | Value |
非对称签名分钟请求数 | 一分钟非对称签名请求数。 | 是 | userId,regionId,instanceId | Value |
非对称验签分钟请求数 | 一分钟非对称验签请求数。 | 是 | userId,regionId,instanceId | Value |
凭据运算分钟请求数 | 一分钟凭据请求数。 | 是 | userId,regionId,instanceId | Value |
其他分钟请求数 | 一分钟其他运算请求数。 | 是 | userId,regionId,instanceId | Value |
5xx 错误请求 | 一分钟5xx 错误码请求。 | 是 | userId,regionId,instanceId | Value |
4xx 错误请求 | 一分钟4xx 错误码请求。 | 是 | userId,regionId,instanceId | Value |
请求时延 | 一分钟所有请求时延均值。 | 是 | userId,regionId,instanceId | Value |
KMS实例CPU利用率 | 实例CPU利用率。 | 是 | user_id,instance_id | Value |
KMS实例对称QPS利用率 | 实例对称QPS利用率。 | 是 | user_id,instance_id | Value |
KMS实例非对称QPS利用率 | 实例非对称QPS利用率。 | 是 | user_id,instance_id | Value |
配置示例:KMS实例QPS监控报警
如果您希望观察KMS实例的QPS使用率并预警潜在性能瓶颈,以此判断是否需要升级KMS实例的规格,可以针对QPS相关的指标(实例分钟请求数)设置动态阈值告警。当实例分钟请求数到达规格的90%时,云监控进行报警。
以KMS实例的QPS是2000为例,实例分钟请求数提醒的阈值需要设置为2000(次/秒)*60(秒)*90%=108,000次,详细配置请流程请参见如下步骤。
登录密钥管理服务控制台,在顶部菜单栏选择地域后,在左侧导航栏单击总览页面。
在总览页面单击设置报警规则,跳转到云监控控制台。
在报警规则页面,单击创建报警规则,参考下表设置报警规则,然后单击确定。
配置项
说明
产品
选择密钥管理服务。
资源范围
选择实例。
关联资源
单击添加资源,勾选要监控的KMS实例,然后单击确定。
规则描述
规则名称:自定义规则名称。
指标类型:选择简单指标。
监控指标:选择实例分钟请求数,设置为警告,连续3个周期监控值>=108,000。
通道沉默周期
根据您的需求设置,通常保持默认24小时即可。
如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知,如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。
生效时间、标签、报警联系人组
请根据您的实际情况填写。
高级设置
报警回调、推送渠道、恢复通知、无数据处理方法,保持默认即可。
相关文档
KMS支持与云监控 CMS(Cloud Monitor)集成,提供系统事件的监控以及告警功能,详情可参见告警事件。