为数据加工作业开启监控告警后,日志服务会在数据加工存在异常时,为您发送告警通知,便于您快速发现数据加工过程中的异常问题。本文介绍如何为数据加工作业开启监控告警。

前提条件

已创建数据加工作业。更多信息,请参见创建数据加工作业

背景信息

  • 创建数据加工作业后,日志服务默认为每个加工作业创建一个数据加工仪表盘。在数据加工诊断仪表盘中,建议您关注如下两方面的指标信息。
    • 系统层面:流式加工的消费延迟,是否有异常报错。
    • 业务层面:处理日志行数、输出日志行数。
    更多信息,请参见数据加工仪表盘
  • 日志服务已内置数据加工告警监控规则、SLS数据加工内置行动策略和SLS数据加工内置内容模板。它们之间的关联如下:
    • 您可以直接开启内置的数据加工告警监控规则实现告警,不再需要编写SQL语句。例如监控数据加工延迟、异常报错和加工失败等规则。更多信息,请参见数据加工监控规则
    • 通过SLS数据加工内置行动策略指定接收告警的渠道和告警通知模板。
    • 通过SLS数据加工内置内容模板指定告警通知内容的模板。

步骤一:配置行动策略

数据加工内置告警监控规则默认绑定SLS数据加工内置行动策略,因此您在开启告警实例前,需先在该行动策略中设置对应的通知渠道。

  1. 登录日志服务控制台
  2. 进入行动策略页面。
    1. 在Project列表区域,单击目标Project。
    2. 在左侧导航栏中,单击告警
    3. 告警中心页面,选择告警管理 > 行动策略
  3. 行动策略页签中,单击SLS数据加工内置行动策略对应的修改
  4. 编辑行动策略对话框中,将第一行动列表钉钉-自定义请求地址修改为钉钉群机器人的Webhook地址。其他选项,保持默认配置,并单击确认
    请参见钉钉-自定义,获取钉钉群机器人的Webhook地址。您也可以根据业务需求,使用其他告警渠道。具体操作,请参见通知渠道说明

步骤二:开启告警实例

日志服务已内置多种告警监控规则,请根据业务需求,开启对应的告警实例。

  1. 告警中心页面,单击规则/事务
  2. 规则/事务页签中,单击SLS数据加工
  3. 在监控规则列表中,单击目标告警监控规则对应的开启
    开启告警实例后,日志服务开始实时监控所有数据加工作业。
    • 如果您需要开启多个告警示例,可单击添加
    • 如果您只需要对特定数据加工作业做监控,可单击设置,配置对应数据加工作业ID即可。

    告警监控规则的参数说明,请参见数据加工监控规则

相关操作

操作 说明
屏蔽列表 针对特定监控规则,如果您希望某些数据加工作业不触发告警,可将其添加至屏蔽列表。
添加告警实例 为该监控规则新增一个告警实例。适用于为指定数据加工作业配置监控告警。
关闭告警实例 关闭告警实例,监控规则不会再触发告警,状态变更为未开启

该操作不会删除规则参数中已设置的信息。需要再次监控时,无需重新设置规则参数。

临时关闭告警实例 临时关闭告警实例后,在指定时间内不再触发告警。
恢复告警实例 处于临时关闭状态的监控实例,可随时恢复告警。
删除告警实例 删除告警实例,状态变更为未创建

该操作会删除规则参数中已设置的信息(例如数据加工作业ID)。需要再次监控时,需要重新设置规则参数。

设置告警实例 修改告警实例参数,例如告警名称、监控的加工作业ID、监控阈值、行动策略和严重度。

数据加工监控规则

日志服务内置数据加工监控规则的作用、参数、关联仪表盘指标和消除方法如下所示。

  • 数据加工延迟监控规则
    项目 说明
    规则名称 数据加工延迟监控
    作用 用于监控数据加工作业中Shard消费延迟情况。当加工延迟时长大于规则参数中监控阈值时触发告警。
    参数配置
    • 监控的加工作业ID:数据加工作业ID,例如dd2de8e7e23f3e42ffbb32fe05710372

      默认值为.*,表示对所有数据加工作业进行监控。多个作业ID可用竖线(|)分割。

    • 监控阈值:当数据加工作业的延迟超过该值时,触发告警。默认值为300秒。
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据加工诊断 > shard消费延迟(秒)
    消除方法 请按照如下原则进行处理:
    1. 如果源Logstore的数据量明显增长:
      • 加工速率 (lines/s)速度同时提高,而且shard消费延迟(秒)出现下降趋势,则说明由于源Logstore数据增长,数据加工作业在自动扩容资源。请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。
      • 加工速率 (lines/s)速度没有提高,或者shard消费延迟(秒)还处于上涨趋势,则说明可能是源Logstore的Shard数目不足,导致数据加工资源扩展受限,您需要手动分裂源Logstore的Shard。具体操作,请参见分裂Shard。完成分裂后,请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。
    2. 如果存在数据加工异常报错监控,请优先处理。处理完成后,请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。
    3. 如果告警无法处理,请准备Project、Logstore和数据加工作业ID信息,提交工单联系阿里云技术支持。
  • 数据加工异常报错监控规则
    项目 说明
    规则名称 数据加工异常报错监控
    作用 用于监控数据加工作业中异常报错。当数据加工出现异常报错时触发告警。
    参数配置
    • 监控的加工作业ID:数据加工作业ID,例如dd2de8e7e23f3e42ffbb32fe05710372

      默认值为.*,表示对所有数据加工作业进行监控。多个作业ID可用竖线(|)分割。

    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据加工诊断 > 异常详情
    消除方法 请按照如下对应报错信息进行处理:
    • 错误信息中包含Unauthorized、InvalidAccessKeyId或SignatureNotMatch,则说明数据加工作业读取源Logstore数据、或者写入目标Logstore权限不足。更多信息,请参见数据加工授权
    • 错误信息中包含ProjectNotExist或LogStoreNotExist,则说明数据加工作业涉及的Project或Logstore不存在。请登录日志服务控制台检查并处理。
    • 错误信息中包含SettingError,则说明数据加工作业配置存在错误,例如加工函数参数不正确、外部资源OSS或RDS配置出错。更多信息,请参见数据加工函数
    • 错误信息中包含TransformError,则说明源Logstore中原始数据不满足当前的数据加工逻辑,可能是新接入数据类型导致。请从错误信息中找到原始数据,更新数据加工作业后重试。更多信息,请参见管理数据加工作业
  • 数据加工流量(绝对值)监控规则
    项目 说明
    规则名称 数据加工流量(绝对值)监控
    作用 用于监控数据加工作业在5分钟内的平均加工条数。当平均加工条数低于规则参数中监控阈值时触发告警。
    参数配置
    • 监控的加工作业ID:数据加工作业ID,例如dd2de8e7e23f3e42ffbb32fe05710372

      默认值为.*,表示对所有数据加工作业进行监控。多个作业ID可用竖线(|)分割。

    • 监控阈值:当数据加工平均加工条数低于该值时,触发告警。默认值为40000行/秒。
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据加工诊断 > 加工速率 (lines/s)
    消除方法 请按照如下原则进行处理:
    1. 如果该值变化趋势与源Logstore的数据量增长(减少)趋势一致,则说明是由于源Logstore数据量导致的。若否,则进行下一步。
    2. 如果存在数据加工延迟监控,请优先处理。处理完成后,请先观察15分钟,如果数据加工延迟已经回到1分钟以内,但是加工数据量与源Logstore数据量增加(减少)趋势不一致,则进行下一步。
    3. 如果告警无法处理,请准备Project、Logstore和数据加工作业ID信息,提交工单联系阿里云技术支持。
  • 数据加工流量(日同比)监控规则
    项目 说明
    规则名称 数据加工流量(日同比)监控
    作用 用于监控数据加工作业在5分钟内相比昨日的增长阈值和下跌阈值情况。当增长大于规则参数中日同比增长阈值或下跌超过规则参数中日同比下跌阈值时触发告警。
    参数配置
    • 监控的加工作业ID:数据加工作业ID,例如dd2de8e7e23f3e42ffbb32fe05710372

      默认值为.*,表示对所有数据加工作业进行监控。多个作业ID可用竖线(|)分割。

    • 日同比增长阈值:当数据加工日增长大于该值时,触发告警。默认值为40%。
    • 日同比下跌阈值:当数据加工日下跌大于该值时,触发告警。默认值为20%。
    • 行动策略:发送告警时的具体行动策略,包括通知渠道和告警内容模板。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据加工诊断 > 加工速率 (lines/s)
    消除方法 请按照如下原则进行处理:
    1. 如果该值变化趋势与源Logstore的数据量增长(减少)趋势一致,则说明是由于源Logstore数据量导致的。若否,则进行下一步。
    2. 如果存在数据加工延迟监控,请优先处理。处理完成后,请先观察15分钟,如果数据加工延迟已经回到1分钟以内,但是加工数据量与源Logstore数据量增加(减少)趋势不一致,则进行下一步。
    3. 如果告警无法处理,请准备Project、Logstore和数据加工作业ID信息,提交工单联系阿里云技术支持。
  • 数据加工失败条数监控规则
    项目 说明
    规则名称 数据加工失败条数监控
    作用 用于监控数据加工作业在15分钟内加工失败情况。当加工失败条数大于规则参数中监控阈值时触发告警。
    参数配置
    • 监控的加工作业ID:数据加工作业ID,例如dd2de8e7e23f3e42ffbb32fe05710372

      默认值为.*,表示对所有数据加工作业进行监控。多个作业ID可用竖线(|)分割。

    • 监控阈值:当数据加工作业的失败条数超过该值时,触发告警。默认值为10条。
    • 行动策略:发送告警时的具体行动策略,包括通知渠道和告警内容模板。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据加工诊断 > 失败日志数总计
    消除方法 请按照如下原则进行处理:
    1. 请优先按照数据加工异常报错监控消除方法进行处理。如果没有任何报错信息,则进行下一步。
    2. 如果告警无法处理,请准备Project、Logstore和数据加工作业ID信息,提交工单联系阿里云技术支持。