云消息队列 Kafka 版支持监控您账户下创建的资源,包括实例、Topic、Group,帮助您实时掌握资源状态。您还可以为云监控项设置报警规则,当监控项数据超过设定的报警阈值时,云监控可以通过电话、短信、邮件、钉钉机器人等方式通知您,帮助您及时应对异常情况。
计费说明
使用云监控功能云消息队列 Kafka 版不收取费用。
前提条件
创建服务关联角色
-
角色名称:AliyunServiceRoleForAlikafka
-
角色策略名称:AliyunServiceRolePolicyForAlikafka
-
权限说明:允许云消息队列 Kafka 版使用该角色访问您的服务(云监控和ARMS服务)以完成云监控和仪表盘相关功能。
-
具体文档说明:服务关联角色。
监控项
-
监控项的数据聚合周期为1分钟,即1分钟计算一次,计算出来每秒字节数。您可以将该数据理解为一分钟内的平均值。
-
监控项的数据延时1分钟。
针对各资源类型提供的监控项如下:
|
Metric Name |
Metric Id |
Dimensions |
单位 |
|
实例集群流入流量(包含副本复制流量) |
ClusterMessageInputV3 |
userId,instanceId |
B/s |
|
实例磁盘使用率 |
DiskInstanceRatioV3 |
userId,instanceId |
% |
|
实例业务实际流入流量 |
InstanceMessageInputV3 |
userId,instanceId |
B/s |
|
实例业务实际流出流量 |
InstanceMessageOutputV3 |
userId,instanceId |
B/s |
|
实例消息生产条数 |
InstanceMessageNumInputV3 |
userId,instanceId |
count/s |
|
实例消息消费条数 |
InstanceMessageNumOutputV3 |
userId,instanceId |
count/s |
|
实例消息发送次数 |
InstanceReqsInputV3 |
userId,instanceId |
count/s |
|
实例消息消费次数 |
InstanceReqsOutputV3 |
userId,instanceId |
count/s |
|
实例存储大小 |
InstanceDiskLogSizeV3 |
userId,instanceId |
B |
|
实例公网写入带宽 |
InstanceInternetTxRateV3 |
userId,instanceId |
bit/s |
|
实例公网读取带宽 |
InstanceInternetRxRateV3 |
userId,instanceId |
bit/s |
|
实例单节点最大连接数(公网+内网) |
InstanceMaxConnectionV3 |
userId,instanceId |
count |
|
实例单节点最大连接数(公网) |
InstanceMaxInternetConnectionV3 |
userId,instanceId |
count |
|
实例总连接数(公网+内网) |
InstanceTotalConnectionV3 |
userId,instanceId |
count |
|
实例总连接数(公网) |
InstanceTotalInternetConnectionV3 |
userId,instanceId |
count |
|
实例单节点最大连接数使用率(公网+内网) |
InstanceMaxConnectionRatioV3 |
userId,instanceId |
% |
|
实例单节点最大连接数使用率(公网) |
InstanceMaxInternetConnectionRatioV3 |
userId,instanceId |
% |
|
最大节点生产流量在节点弹性上限占比 |
InstanceMaxNodeInputRatioV3 |
userId,instanceId |
% |
|
最大节点消费流量在节点弹性上限占比 |
InstanceMaxNodeOutputRatioV3 |
userId,instanceId |
% |
|
生产流量在弹性上限占比 |
InstanceMessageInputRatioV3 |
userId,instanceId |
% |
|
消费流量在弹性上限占比 |
InstanceMessageOutputRatioV3 |
userId,instanceId |
% |
|
实例生产限流时间 |
InstanceThrottleTimeP99InputV3 |
userId,instanceId |
ms |
|
实例消费限流时间 |
InstanceThrottleTimeP99OutputV3 |
userId,instanceId |
ms |
|
实例分区使用率 |
PartitionInstanceRatioV3 |
userId,instanceId |
% |
|
消息堆积量 |
MessageAccumulationV3 |
userId,instanceId,consumerGroup |
count |
|
ConsumerGroup未消费此Topic消息数 |
MessageAccumulationOnetopicV3 |
userId,instanceId,consumerGroup,topic |
count |
|
MessageNumOutputV3 |
GroupMessageNumOutputV3 |
userId,instanceId,consumerGroup |
count/s |
|
MessageNumOutputOnetopicV3 |
GroupMessageNumOutputOnetopicV3 |
userId,instanceId,consumerGroup,topic |
count/s |
|
MessageNumOutputOnetopicOnepartitionV3 |
GroupMessageNumOutputOnetopicOnepartitionV3 |
userId,instanceId,consumerGroup,topic,partition |
count/s |
|
topic 发生非正常 HA 的 partition 数量 |
TopicAbnormalHaPartitionNumV3 |
userId,instanceId,topic |
count |
查看云监控数据
查看监控数据的步骤如下:
登录云消息队列 Kafka 版控制台,在概览页面的资源分布区域,选择地域。
在实例列表页面,单击目标实例名称。
-
在左侧导航栏,选择。
-
在监控图表页签,设置时间范围,查看监控数据。
页面会自动显示当前资源所有的监控项图表。
设置报警规则
设置报警的操作步骤如下:
在概览页面的资源分布区域,选择地域。
在实例列表页面,单击目标实例名称。
-
在左侧导航栏,选择。
-
在云监控页面,单击报警规则页签,然后单击创建报警规则。
-
在创建报警规则面板,设置报警规则和通知方式,单击确定。
如果您需要对已创建的规则进行修改,请单击规则名称右侧操作列的修改进行修改。
查看报警信息
查看报警信息的步骤如下:
在概览页面的资源分布区域,选择地域。
在实例列表页面,单击目标实例名称。
-
在左侧导航栏,选择。
-
在云监控页面,单击报警规则,然后单击规则名称右侧操作列的详情查看报警信息。