文档

Control Center设置告警

更新时间:
一键部署

本文介绍如何在Control Center为流数据服务Confluent集群设置告警。

CSP服务支持的告警设置类型

Control Center使您能够检测监控数据中的异常事件并配置在检测到这些事件时发生的警报。您可以通过配置电子邮件来及时获取集群故障信息。每个触发器都基于一个带有条件值标准的指标,该条件确定触发器应何时触发。当触发器触发时,它会执行所有未超出其关联的已启用操作。详情请参见Confluent官方文档

建议设置的告警指标

类型

名称

含义

生产者触发器

字节数

一个broker每秒产生的字节数。

字节输出

从一个broker获取的每秒字节数(不考虑内部复制流量)。

获取请求延迟

在中位数、第 95、第 99 或第 99.9 个百分位数(以毫秒为单位)对此broker的获取请求的延迟。

生产请求数

对broker的生产请求总数(每分钟请求数)。

生产请求延迟

在中位数、第 95、第 99 或第 99.9 个百分位(以毫秒为单位)向此broker发出的生产请求的延迟。

集群触发器

集群关闭

监控集群是否关闭。

leader选举率

分区leader选举的次数。

离线的topic分区

集群中离线的topic分区总数。如果具有副本的broker宕机,或者不干净的leader选举被禁用并且副本不同步,导致没有可以被选为leader(可能需要确保没有消息丢失),就会发生这种情况。应为该值大于零创建触发器。

不干净的选举计数

上一个时间间隔内报告的集群中不干净分区中leader选举的次数。当在非同步的副本之间举行不干净的leader选举时,如果在前leader离线之前,该副本没有同步任何消息,则有可能发生数据丢失。因此,如果不干净的选举数量大于0,可以查询broker日志以确定为什么leader被重新选举,并寻找警告或错误消息。考虑将brokers配置参数设置为unclean.leader.election.enable=false,以便同步副本集之外的副本永远不会被选为leader,应为该值不等于零创建触发器。

在复制的topic分区

集群中副本不足的topic分区总数,即同步副本数小于复制因子的分区,应为该值大于零创建触发器。

ZooKeeper状态

Brokers是否可以连接到 ZooKeeper,取值范围:

  • 离线

  • 在线。

ZooKeeper过期率

broker遇到ZooKeeper会话过期的速率(每秒过期数)。

消费者触发器

平均延迟(毫秒)

消费者组的平均延迟(以毫秒为单位)。要监控此指标,您必须为消费者组中的客户端配置Confluent监控拦截器。

消费滞后

消费者应用程序在从生产者应用程序消费时落后多久。消费者滞后是结束偏移量和当前偏移量之间的差值。

消费超前

消费者应用程序在从生产者应用程序消费时提前多少。消费者提前是当前偏移量和开始偏移量之间的差值。例如,从偏移量 0 开始的分区中,偏移量 15 处的消费者将有 15 的提前。此警报指标指示消费何时接近最早的可用消息,这意味着存在数据丢失的可能性

消费差异

给定时间段内预期消耗值与实际消耗值之间的差值。通常,预期和实际消耗之间存在非常接近实时的差距。这种差距应该会随着时间的推移而缩小。

最大延迟(毫秒)

消费者组的最大延迟(以毫秒为单位)。要监控此指标,您必须为消费者组中的客户端配置Confluent监控拦截器。

缓冲区(已弃用)

在考虑触发的时间窗口之前等待的实时延迟。

Topic触发器

字节数

每秒进入topic的字节数。

字节输出

每秒从topic输出的字节数(不考虑内部复制流量)。

不同步副本计数

集群中与leader同步的topic partition副本总数;即,分区的总和(topic分区 * topic复制因子)。

生产请求数

每秒对集群中topic的生产请求量。

复制不足的topic分区

复制不足的topic分区的数量。该指标的一个用例是想知道Kafka broker是否会在持有特定topic分区时崩溃。

当被监控的度量值与用户设置的值之间的比较条件为真时,触发器将触发。可能的选项有大于、 小于、等于、不等于,具体取决于所选的度量标准。

编辑警报触发器

创建触发器

  1. 单击顶部横幅中的警报铃图标。默认情况下,警报页面打开到历史记录选项卡。

  2. 单击触发器选项卡。

  3. 单击触发器的名称。

  4. 单击编辑。

  5. 对触发器字段进行所需的更改。

  6. 点击保存。

删除触发器

  1. 单击顶部横幅中的警报铃图标。默认情况下,警报页面打开到历史记录选项卡。

  2. 单击触发器选项卡。

  3. 单击触发器的名称。

  4. 单击删除

  5. 单击确定以确认您要删除触发器。

管理操作

创建触发器后,系统会提示您创建或选择现有操作,或者您可以单击稍后执行此操作。

confluent1最初,当尚未定义任何操作时,操作页面是空白的。单击action选项卡会显示所有已配置操作的摘要。

在配置页面可以执行如下操作:

  • 使用新建操作按钮创建一个action。

  • 查看和排序操作摘要、它们的最大频率、关联触发器的数量和状态。

  • 搜索操作。

  • 暂停和恢复所有启用的操作。“state”列指示特定操作是单独启用、禁用还是暂停。暂停所有操作切换指示当前是否已暂停所有启用的操作。

  • 编辑或删除现有操作。

新建或编辑操作表单

填写操作表单以指定在触发定义的触发器时您希望接收的通知类型,支持的通知操作包括:电子邮件。

电子邮件操作表如图所示。

操作字段说明

每个操作字段的描述如下,大多数字段都是必填字段。

名称

说明

动作名称

操作的名称,例如:email DevOps on call

启用/禁用

您可能想要暂时禁用操作。使用此字段选择当前是启用还是禁用操作。

触发器

一个或多个触发器将导致操作执行。

行动

要执行的操作类型:发送电子邮件

收件人电子邮件地址(仅限电子邮件操作)

与此操作关联的一个或多个电子邮件地址。每次执行操作时,都会向指定的电子邮件地址发送一条消息。用逗号分隔多个电子邮件地址。

主题

与操作关联的通知的主题行。

最大发送速率

执行操作的最大速率,与Frequency一起设置。

值和频率:每小时(默认)、每分钟、每 4 小时、每 8 小时、每天。例如,输入 1 并选择每天,意为每天发送一次警报。

每小时

从下拉菜单中选择发送通知的频率,与Max send rate一起设置。

暂停和恢复所有警报操作

出于维护或故障排除原因,必要时暂停所有启用的警报。在暂停和恢复期间会遵守启用或禁用的单个操作的现有设置。暂停时会忽略满足和触发的任何触发条件,并抑制与触发器关联的所有已启用操作。准备好后,再次恢复警报。下次触发条件触发时,其启用的操作会发送相应的警报。如果您停止并重新启动流数据服务Confluent或Control Center,暂停的操作将恢复并再次变为活动状态。单击暂停所有操作切换按钮以再次暂停操作。

暂时暂停所有警报操作:

  1. 单击顶部横幅中的警报铃图标。默认情况下,警报页面打开到历史记录选项卡。

  2. 单击操作选项卡。

  3. 单击暂停所有操作切换按钮。系统会提示您确认暂停所有当前启用的操作。

  4. 点击确认。切换中的复选标记表示所有启用的操作当前都已暂停。

恢复暂停的警报操作:

  1. 单击顶部横幅中的警报铃图标。默认情况下,警报页面打开到历史记录选项卡。

  2. 单击操作选项卡。

  3. 单击暂停所有操作切换按钮。系统会提示您确认恢复所有当前暂停的操作。

  4. 点击确认。在暂停所有警报触发被停用。

禁用或启用单个警报操作

创建操作时,默认情况下它处于启用状态。如果您不希望某个操作处于活动状态,请禁用该操作。暂停和恢复操作尊重操作的禁用设置。恢复暂停的警报不会激活禁用的警报操作。

要禁用操作:

  1. 单击顶部横幅中的警报铃图标。默认情况下,警报页面打开到历史记录选项卡。

  2. 单击操作选项卡。

  3. 名称列中,单击要禁用的操作。

  4. 单击编辑

  5. 单击启用/禁用操作切换。将开关切换为关闭,操作在状态列中显示为已禁用。

  6. 点击保存。要再次启用操作,请重复该过程并再次单击启用/禁用切换。

编辑警报操作

创建action

  1. 单击顶部横幅中的警报铃图标。默认情况下,警报页面打开到历史记录选项卡。

  2. 单击操作选项卡。

  3. 单击操作的名称。

  4. 单击编辑

  5. 对操作字段进行所需的更改。

  6. 点击保存

删除action

  1. 单击顶部横幅中的警报铃图标。默认情况下,警报页面打开到历史记录选项卡。

  2. 单击操作选项卡。

  3. 单击操作的名称。

  4. 单击删除

  5. 确认删除操作。

  • 本页导读 (0)
文档反馈