文档

为数据加工任务开启监控告警

更新时间:

为数据加工任务开启监控告警后,日志服务会在数据加工存在异常时,为您发送告警通知,便于您快速发现数据加工过程中的异常问题。本文介绍如何为数据加工任务开启监控告警。

前提条件

已创建数据加工任务。更多信息,请参见创建数据加工任务

背景信息

  • 创建数据加工任务后,日志服务默认为每个加工任务创建一个数据加工仪表盘。在数据加工诊断仪表盘中,建议您关注如下两方面的指标信息。

    • 系统层面:流式加工的消费延迟,是否有异常报错。

    • 业务层面:处理日志行数、输出日志行数。

    更多信息,请参见数据加工仪表盘

  • 日志服务已内置数据加工告警监控规则、SLS数据加工内置行动策略和SLS数据加工内置内容模板。它们之间的关联如下:

    • 您可以直接开启内置的数据加工告警监控规则实现告警,不再需要编写SQL语句。例如监控数据加工延迟、异常报错和加工失败等规则。更多信息,请参见数据加工监控规则

    • 通过SLS数据加工内置行动策略指定接收告警的渠道和告警通知模板。

    • 通过SLS数据加工内置内容模板指定告警通知内容的模板。

步骤一:配置行动策略

数据加工内置告警监控规则默认绑定SLS数据加工内置行动策略,因此您在开启告警实例前,需先在该行动策略中设置对应的通知渠道。

  1. 登录日志服务控制台

  2. 进入行动策略页面。

    1. 在Project列表区域,单击目标Project。

    2. 在左侧导航栏中,单击告警

    3. 告警中心页面,选择通知策略 > 行动策略

  3. 行动策略页签中,单击SLS数据加工内置行动策略对应的修改

  4. 编辑行动策略对话框中,将第一行动列表钉钉-自定义请求地址修改为钉钉群机器人的Webhook地址。其他选项,保持默认配置,并单击确认

    请参见钉钉-自定义,获取钉钉群机器人的Webhook地址。您也可以根据业务需求,使用其他告警渠道。具体操作,请参见通知渠道说明

步骤二:开启告警实例

日志服务已内置多种告警监控规则,请根据业务需求,开启对应的告警实例。

  1. 告警中心页面,单击告警规则展开新建告警,单击从模板新建

  2. 从模板新建页签中,单击SLS数据加工,选择目标模板。

  3. 新建告警页面,完成各项配置,单击确认,开启告警实例。

    开启告警实例后,日志服务开始实时监控该project下的所有数据加工任务。

    如果只需要对特定数据加工任务做监控,在新建告警页面编辑查询统计,选择询统计页面中的高级配置查询语句编辑框配置对应的数据加工任务ID。

相关操作

操作

说明

屏蔽列表

针对特定监控规则,如果您希望某些数据加工任务不触发告警,可将其添加至屏蔽列表。

添加告警实例

为该监控规则新增一个告警实例。适用于为指定数据加工任务配置监控告警。

关闭告警实例

关闭告警实例,监控规则不会再触发告警,状态变更为未开启

该操作不会删除规则参数中已设置的信息。需要再次监控时,无需重新设置规则参数。

临时关闭告警实例

临时关闭告警实例后,在指定时间内不再触发告警。

恢复告警实例

处于临时关闭状态的监控实例,可随时恢复告警。

删除告警实例

删除告警实例,状态变更为未创建

该操作会删除规则参数中已设置的信息(例如数据加工任务ID)。需要再次监控时,需要重新设置规则参数。

设置告警实例

修改告警实例参数,例如告警名称、监控的加工任务ID、监控阈值、行动策略和严重度。

数据加工监控规则

日志服务内置数据加工监控规则的作用、参数、关联仪表盘指标和消除方法如下所示。

  • 数据加工延迟监控规则

    项目

    说明

    规则名称

    数据加工延迟监控

    作用

    用于监控数据加工任务中Shard消费延迟情况。当加工延迟时长大于规则参数中监控阈值时触发告警。

    关联仪表盘

    数据加工诊断 > shard消费延迟(秒)

    消除方法

    请按照如下原则进行处理:

    1. 如果源Logstore的数据量明显增长:

      • 加工速率 (lines/s)速度同时提高,而且shard消费延迟(秒)出现下降趋势,则说明由于源Logstore数据增长,数据加工任务在自动扩容资源。请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。

      • 加工速率 (lines/s)速度没有提高,或者shard消费延迟(秒)还处于上涨趋势,则说明可能是源Logstore的Shard数目不足,导致数据加工资源扩展受限,您需要手动分裂源Logstore的Shard。具体操作,请参见分裂Shard。完成分裂后,请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。

    2. 如果存在数据加工异常报错监控,请优先处理。处理完成后,请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。

    3. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。

  • 数据加工异常报错监控规则

    项目

    说明

    规则名称

    数据加工异常报错监控

    作用

    用于监控数据加工任务中异常报错。当数据加工出现异常报错时触发告警。

    关联仪表盘

    数据加工诊断 > 异常详情

    消除方法

    请按照如下对应报错信息进行处理:

    • 错误信息中包含Unauthorized、InvalidAccessKeyId或SignatureNotMatch,则说明数据加工任务读取源Logstore数据、或者写入目标Logstore权限不足。更多信息,请参见数据加工授权

    • 错误信息中包含ProjectNotExist或LogStoreNotExist,则说明数据加工任务涉及的Project或Logstore不存在。请登录日志服务控制台检查并处理。

    • 错误信息中包含SettingError,则说明数据加工任务配置存在错误,例如加工函数参数不正确、外部资源OSS或RDS配置出错。更多信息,请参见数据加工函数

    • 错误信息中包含TransformError,则说明源Logstore中原始数据不满足当前的数据加工逻辑,可能是新接入数据类型导致。请从错误信息中找到原始数据,更新数据加工任务后重试。更多信息,请参见管理数据加工任务

  • 数据加工流量(绝对值)监控规则

    项目

    说明

    规则名称

    数据加工流量(绝对值)监控

    作用

    用于监控数据加工任务在5分钟内的平均加工条数。当平均加工条数低于规则参数中监控阈值时触发告警。

    关联仪表盘

    数据加工诊断 > 加工速率 (lines/s)

    消除方法

    请按照如下原则进行处理:

    1. 如果该值变化趋势与源Logstore的数据量增长(减少)趋势一致,则说明是由于源Logstore数据量导致的。若否,则进行下一步。

    2. 如果存在数据加工延迟监控,请优先处理。处理完成后,请先观察15分钟,如果数据加工延迟已经回到1分钟以内,但是加工数据量与源Logstore数据量增加(减少)趋势不一致,则进行下一步。

    3. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。

  • 数据加工流量(日同比)监控规则

    项目

    说明

    规则名称

    数据加工流量(日同比)监控

    作用

    用于监控数据加工任务在5分钟内相比昨日的增长阈值和下跌阈值情况。当增长大于规则参数中日同比增长阈值或下跌超过规则参数中日同比下跌阈值时触发告警。

    关联仪表盘

    数据加工诊断 > 加工速率 (lines/s)

    消除方法

    请按照如下原则进行处理:

    1. 如果该值变化趋势与源Logstore的数据量增长(减少)趋势一致,则说明是由于源Logstore数据量导致的。若否,则进行下一步。

    2. 如果存在数据加工延迟监控,请优先处理。处理完成后,请先观察15分钟,如果数据加工延迟已经回到1分钟以内,但是加工数据量与源Logstore数据量增加(减少)趋势不一致,则进行下一步。

    3. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。

  • 数据加工失败条数监控规则

    项目

    说明

    规则名称

    数据加工失败条数监控

    作用

    用于监控数据加工任务在15分钟内加工失败情况。当加工失败条数大于规则参数中监控阈值时触发告警。

    关联仪表盘

    数据加工诊断 > 失败日志数总计

    消除方法

    请按照如下原则进行处理:

    1. 请优先按照数据加工异常报错监控消除方法进行处理。如果没有任何报错信息,则进行下一步。

    2. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。

  • 本页导读 (1)
文档反馈