文档

总览

更新时间:

总览页面帮助您快速了解KMS实例的监控大盘,包含KMS实例规格、实例状态以及监控项指标等,您也可以配置报警规则监控这些指标项。本文介绍如何查看KMS实例的监控大盘以及如何配置云监控报警。

概述

重要

如果总览页面提示“当前实例版本过低,若要查看全量监控指标,请提交工单确认升级时间”,请您联系阿里云技术支持人员升级实例版本。

KMS支持和云监控集成,在总览页面为您展示监控项指标的趋势图。关于云监控的详细信息,请参见什么是云监控

您也可以根据业务的实际使用情况,设置云监控报警,提前识别并解决KMS使用中的问题。常见的报警规则设置项:

  • 请求数每秒的平均值已达到阈值的80%。关于性能数据的详细内容,请参见性能数据

    例如:您购买了计算性能规格为1000(次/秒)的软件密钥管理实例,可以设置连续3个周期实例总分钟请求数阈值到达48000(1000次/秒*60秒*80%)时进行预警,表示该指标的平均值已经超过了实例性能所能承受的 80%,此时建议您升级实例的规格扩展性能。

  • 连续3个周期出现4xx错误请求或5xx错误请求。

    4xx错误请求,一般是非法请求或指定资源不存在等原因,您可以根据错误提示进行排查。5xx一般是服务当前不可用,请稍后重试或联系阿里云技术支持人员。

前提条件

如果登录用户是RAM用户(子账号),需在RAM控制台将只读访问云监控的权限(AliyunCloudMonitorReadOnlyAccess)授予RAM用户。具体操作,请参见为RAM用户授权

查看KMS实例总览和监控数据

  1. 登录密钥管理服务控制台,在顶部菜单栏选择地域后,在左侧导航栏单击总览页面。

  2. 选择实例ID后,可查看KMS实例总览和监控数据。

    说明

    最多支持您查看30天内的监控项指标数据。

  3. (可选)打开自动刷新开关,KMS会每隔1分钟自动刷新监控数据。image.png

配置云监控报警

  1. 登录密钥管理服务控制台,在顶部菜单栏选择地域后,在左侧导航栏单击总览页面。

  2. 总览页面单击设置报警规则,跳转到云监控控制台。image.png

  3. 创建报警联系人及报警联系人组。具体操作,请参见创建报警联系人或报警联系人组

  4. 创建报警规则。

    1. 在左侧导航栏,选择报警服务 > 报警规则

    2. 报警规则页面,单击创建报警规则,配置完成后单击确认

      配置项

      说明

      产品

      选择密钥管理服务

      资源范围

      报警规则作用的资源范围。取值:

      • 全部资源:报警规则作用于指定云产品的全部资源上,对于新加入的资源生效。

      • 应用分组:报警规则作用于指定云产品的指定应用分组内的全部资源上,对于新加入的资源生效。

      • 实例:报警规则作用于指定云产品的指定资源上。

      规则描述

      报警规则的主体。当监控数据满足报警条件时,触发报警规则。规则描述的设置方法如下:

      1. 单击添加规则

      2. 添加规则描述面板,先输入规则名称,再设置规则条件。

        • 单指标:先选择监控指标,再为其设置阈值和报警级别。

        • 多指标:先选择报警级别,再为两个或两个以上的监控指标设置报警条件。

        • 动态阈值:关于动态阈值的更多信息,请参见概览创建动态阈值报警规则

          说明
          • 动态阈值功能处于邀测阶段,您需要提交工单申请。

          • 仅当资源范围选择实例时,才能创建动态阈值报警。

      3. 单击确定

      说明

      关于如何设置复杂的报警条件,请参见报警规则表达式说明

      通道沉默周期

      报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

      某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

      例如:当通道沉默周期选择12小时时,如果报警未恢复正常,则间隔12小时后,云监控会再次发送报警通知。

      生效时间

      报警规则的生效时间。报警规则仅在生效期内才会发送报警通知。

      说明

      当报警规则不在生效期时,不会发送报警通知,但是报警历史记录仍然会显示在报警历史列表中。

      报警联系人组

      发送报警的联系人组。

      标签

      报警规则的标签。包括标签名称和标签值。

      说明

      您最多可设置6组标签。

      报警回调

      公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调

      当您需要测试报警回调地址的连通性时,可以执行以下操作。

      1. 单击回调地址正后方的测试

        WebHook测试面板,您可以通过Webhook返回的状态码和测试结果详情对报警回调地址的连通性进行判断和排查。

        说明

        您还可以设置Webhook的回调模板类型语言,再次单击测试,获取对应的测试结果详情。

      2. 单击关闭

      说明

      单击高级设置,可设置该参数。

      弹性伸缩

      如果您打开弹性伸缩开关,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则

      说明

      单击高级设置,可设置该参数。

      日志服务

      如果您打开日志服务开关,当报警发生时,会将报警信息发送至日志服务的日志库。您需要设置日志服务的地域ProjectNameLogstore

      关于如何创建Project和Logstore,请参见快速入门

      说明

      单击高级设置,可设置该参数。

      消息服务MNS-Topic

      如果您打开消息服务MNS-Topic开关,当报警发生时,会将报警信息发送至消息服务的主题。您需要设置消息服务的地域和主题。

      关于如何创建主题,请参见创建主题

      说明

      单击高级设置,可设置该参数。

      函数计算

      如果您打开函数计算开关,当报警发生时,会将报警通知发送至函数计算进行格式处理。您需要设置函数计算的地域、服务和函数。

      关于如何创建服务和函数,请参见快速创建函数

      说明

      单击高级设置,可设置该参数。

      无数据处理方法

      无监控数据时报警的处理方式。取值:

      • 不做任何处理(默认值)

      • 发送无数据报警

      • 视为恢复

      说明

      单击高级设置,可设置该参数。

支持的云监控指标

监控项

指标含义

是否支持报警

聚合维度(dimensions)

统计方法(statistics)

实例分钟请求数

一分钟请求数。

userId,regionId,instanceId

Value

对称加解密分钟请求数

一分钟对称运算请求数。

userId,regionId,instanceId

Value

非对称加密分钟请求数

一分钟非对称加密请求数。

userId,regionId,instanceId

Value

非对称解密分钟请求数

一分钟非对称解密请求数。

userId,regionId,instanceId

Value

非对称签名分钟请求数

一分钟非对称签名请求数。

userId,regionId,instanceId

Value

非对称验签分钟请求数

一分钟非对称验签请求数。

userId,regionId,instanceId

Value

凭据运算分钟请求数

一分钟凭据请求数。

userId,regionId,instanceId

Value

其他分钟请求数

一分钟其他运算请求数。

userId,regionId,instanceId

Value

5xx 错误请求

一分钟5xx 错误码请求。

userId,regionId,instanceId

Value

4xx 错误请求

一分钟4xx 错误码请求。

userId,regionId,instanceId

Value

请求时延

一分钟所有请求时延均值。

userId,regionId,instanceId

Value

相关文档

联系我们

  • 本页导读 (1)
文档反馈