为数据加工任务开启监控告警后,日志服务会在数据加工存在异常时,为您发送告警通知,便于您快速发现数据加工过程中的异常问题。本文介绍如何为数据加工任务开启监控告警。

前提条件

已创建数据加工任务。更多信息,请参见创建数据加工任务

背景信息

  • 创建数据加工规则后,日志服务默认为每个加工任务创建一个数据加工仪表盘。在数据加工诊断仪表盘中,建议您关注如下两方面的指标信息。
    • 系统层面:流式加工的消费延迟,是否有异常报错。
    • 业务层面:处理日志行数、输出日志行数。
    更多信息,请参见数据加工仪表盘
  • 日志服务已内置数据加工监控规则、SLS数据加工内置行动策略和SLS数据加工内置内容模板。它们之间的关联如下:
    • 告警中心内置数据加工规则,您可以直接开启监控任务来创建告警,不再需要编写SQL语句。例如监控数据加工延迟、异常报错和加工失败等规则。更多信息,请参见数据加工监控规则
    • 通过SLS数据加工内置行动策略指定接收告警的渠道和告警通知模板。
    • 通过SLS数据加工内置内容模板指定告警通知内容的模板。

配置流程

您可以直接使用内置的告警资源,也可以自定义告警资源,具体设置告警的流程如下:
  • 使用内置的告警资源
    如果您希望快速完成告警设置,流程如下。
    1. 准备钉钉机器人

      配置接收告警通知的钉钉机器人。

    2. 配置行动策略

      将获取的Webhook地址配置到SLS数据加工内置行动策略。日志服务按照此地址发送告警通知。

    3. 开启告警实例
  • 自定义告警资源
    如果您希望根据实际场景自行定义接收通知用户、通知消息样式和通知方式,可以根据如下流程完成设置。
    1. 创建用户

      配置接收告警通知的用户或用户组。具体操作,请参见创建用户和用户组

    2. 创建内容模板

      配置告警通知的内容目标。具体操作,请参见创建内容模板

    3. 创建行动策略

      配置通知渠道,例如语音、短信和邮件等方式通知告警。具体操作,请参见创建行动策略

    4. 开启告警实例

日志服务提供的内置数据加工告警资源可满足大部分告警场景,在实际场景中,你可以综合上述两种方式开启监控告警。本文以内置的告警资源为例。

步骤一:准备钉钉机器人

数据加工内置行动策略默认采用钉钉机器人方式发送告警通知。开启监控告警前,需提前准备好钉钉机器人。告警触发后,日志服务会通过钉钉机器人向指定的钉钉群发送告警通知。

配置钉钉机器人。
  1. 打开钉钉客户端,进入钉钉群。
  2. 单击右上角群设置图标,并单击智能群助手 > 添加机器人
  3. 群机器人对话框中,单击添加机器人区域中的+
  4. 选择自定义(通过WebHook接入自定义服务),并单击添加
  5. 添加机器人对话框中,输入机器人名字,配置安全设置,勾选我已阅读并同意《自定义机器人服务及免责条款》并单击完成
    说明 建议安全设置选择为自定义关键字,最多可以设置10个关键字,消息中至少包含其中1个关键字才可以发送成功,建议其中一个关键字设置为告警更多关于安全设置请参见钉钉开放平台
  6. 单击复制,复制WebHook链接。

步骤二:配置行动策略

修改数据加工内置行动策略的请求地址,日志服务将告警通知发送到此钉钉机器人。

  1. 登录日志服务控制台
  2. 进入行动策略管理页面。
    1. 在Project列表区域,单击目标Project。
    2. 在左侧导航栏中,单击告警
    3. 单击打开告警中心,选择告警管理 > 行动策略
  3. 行动策略页签中,单击SLS 数据加工内置行动策略修改
  4. 编辑行动策略对话框中,将第一行动列表钉钉-自定义请求地址,修改为步骤一:准备钉钉机器人中获取的Webhook地址。单击确认

步骤三:开启告警实例

  1. 登录日志服务控制台
  2. 在Project列表区域,单击目标Project。
  3. 在左侧导航栏中,单击告警
  4. 单击打开告警中心
  5. 规则/事务页签,类别选择SLS数据加工
  6. 在监控规则列表中,找到目标监控规则,单击开启
    开启告警实例后,日志服务开始默认实时监控所有数据加工任务。
    • 如果您需要开启多个告警示例,可单击添加
    • 如果您只需要对特定数据加工任务做监控,可单击设置,配置对应数据加工任务ID即可。

    更多操作,请参见相关操作

    监控规则的参数说明,请参见数据加工监控规则

相关操作

操作 说明
屏蔽列表 针对特定监控规则,如果您希望某些数据加工任务不触发告警,可将其添加至屏蔽列表。
添加告警实例 为该监控规则新增一个告警实例。适用于为指定数据加工任务配置监控告警。
关闭告警实例 关闭告警实例,监控规则不会再触发告警,状态变更为未开启

该操作不会删除规则参数中已设置的信息。需要再次监控时,无需重新设置规则参数。

临时关闭告警实例 临时关闭告警实例后,在指定时间内不再触发告警。
恢复告警实例 处于临时关闭状态的监控实例,可随时恢复告警。
删除告警实例 删除告警实例,状态变更为未创建

该操作会删除规则参数中已设置的信息(例如数据加工任务ID)。需要再次监控时,需要重新设置规则参数。

设置告警实例 修改告警实例参数,例如告警名称、监控的加工任务ID、监控阈值、行动策略和严重度。

数据加工监控规则

日志服务内置数据加工监控规则的作用、参数、关联仪表盘指标和消除方法如下所示。

  • 数据加工延迟监控规则
    项目 说明
    规则名称 数据加工延迟监控
    作用 用于监控数据加工任务中Shard消费延迟情况。当加工延迟时长大于规则参数中监控阈值时触发告警。
    参数配置
    • 监控的加工任务ID:数据加工任务ID,例如dd2de8e7e23f3e42ffbb32fe05710372

      默认值为.*,表示对所有数据加工任务进行监控。多个任务ID可用竖线(|)分割。

    • 监控阈值:当数据加工任务的延迟超过该值时,触发告警。默认值为300秒。
    • 行动策略:发送告警时的具体行动策略,包括通知渠道和告警内容模板。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度,包括严重报告。默认值为
    关联仪表盘 数据加工诊断 > shard消费延迟 (秒)
    消除方法 请按照如下原则进行处理:
    1. 如果源Logstore的数据量明显增长:
      • 加工速率 (lines/s)速度同时提高,而且shard消费延迟 (秒)出现下降趋势,则说明由于源Logstore数据增长,数据加工任务在自动扩容资源。请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。
      • 加工速率 (lines/s)速度没有提高,或者shard消费延迟 (秒)还处于上涨趋势,则说明可能是源Logstore的Shard数目不足,导致数据加工资源扩展受限,您需要手动分裂源Logstore的Shard。具体操作,请参见分裂Shard。完成分裂后,请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。
    2. 如果存在数据加工异常报错监控,请优先处理。处理完成后,请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。
    3. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。
  • 数据加工异常报错监控规则
    项目 说明
    规则名称 数据加工异常报错监控
    作用 用于监控数据加工任务中异常报错。当数据加工出现异常报错时触发告警。
    参数配置
    • 监控的加工任务ID:数据加工任务ID,例如dd2de8e7e23f3e42ffbb32fe05710372

      默认值为.*,表示对所有数据加工任务进行监控。多个任务ID可用竖线(|)分割。

    • 行动策略:发送告警时的具体行动策略,包括通知渠道和告警内容模板。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度,包括严重报告。默认值为
    关联仪表盘 数据加工诊断 > 异常详情
    消除方法 请按照如下对应报错信息进行处理:
    • 错误信息中包含Unauthorized、InvalidAccessKeyId或SignatureNotMatch,则说明数据加工任务读取源Logstore数据、或者写入目标Logstore权限不足。更多信息,请参见数据加工授权
    • 错误信息中包含ProjectNotExist或LogStoreNotExist,则说明数据加工任务涉及的Project或Logstore不存在。请登录日志服务控制台检查并处理。
    • 错误信息中包含SettingError,则说明数据加工任务配置存在错误,例如加工函数参数不正确、外部资源OSS或RDS配置出错。更多信息,请参见数据加工函数
    • 错误信息中包含TransformError,则说明源Logstore中原始数据不满足当前的数据加工逻辑,可能是新接入数据类型导致。请从错误信息中找到原始数据,更新数据加工任务后重试。更多信息,请参见管理数据加工任务
  • 数据加工流量(绝对值)监控规则
    项目 说明
    规则名称 数据加工流量(绝对值)监控
    作用 用于监控数据加工任务在5分钟内的平均加工条数。当平均加工条数低于规则参数中监控阈值时触发告警。
    参数配置
    • 监控的加工任务ID:数据加工任务ID,例如dd2de8e7e23f3e42ffbb32fe05710372

      默认值为.*,表示对所有数据加工任务进行监控。多个任务ID可用竖线(|)分割。

    • 监控阈值:当数据加工平均加工条数低于该值时,触发告警。默认值为40000行/秒。
    • 行动策略:发送告警时的具体行动策略,包括通知渠道和告警内容模板。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度,包括严重报告。默认值为
    关联仪表盘 数据加工诊断 > 加工速率 (lines/s)
    消除方法 请按照如下原则进行处理:
    1. 如果该值变化趋势与源Logstore的数据量增长(减少)趋势一致,则说明是由于源Logstore数据量导致的。若否,则进行下一步。
    2. 如果存在数据加工延迟监控,请优先处理。处理完成后,请先观察15分钟,如果数据加工延迟已经回到1分钟以内,但是加工数据量与源Logstore数据量增加(减少)趋势不一致,则进行下一步。
    3. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。
  • 数据加工流量(日同比)监控规则
    项目 说明
    规则名称 数据加工流量(日同比)监控
    作用 用于监控数据加工任务在5分钟内相比昨日的增长阈值和下跌阈值情况。当增长大于规则参数中日同比增长阈值或下跌超过规则参数中日同比下跌阈值时触发告警。
    参数配置
    • 监控的加工任务ID:数据加工任务ID,例如dd2de8e7e23f3e42ffbb32fe05710372

      默认值为.*,表示对所有数据加工任务进行监控。多个任务ID可用竖线(|)分割。

    • 日同比增长阈值:当数据加工日增长大于该值时,触发告警。默认值为40%。
    • 日同比下跌阈值:当数据加工日下跌大于该值时,触发告警。默认值为20%。
    • 行动策略:发送告警时的具体行动策略,包括通知渠道和告警内容模板。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度,包括严重报告。默认值为
    关联仪表盘 数据加工诊断 > 加工速率 (lines/s)
    消除方法 请按照如下原则进行处理:
    1. 如果该值变化趋势与源Logstore的数据量增长(减少)趋势一致,则说明是由于源Logstore数据量导致的。若否,则进行下一步。
    2. 如果存在数据加工延迟监控,请优先处理。处理完成后,请先观察15分钟,如果数据加工延迟已经回到1分钟以内,但是加工数据量与源Logstore数据量增加(减少)趋势不一致,则进行下一步。
    3. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。
  • 数据加工失败条数监控规则
    项目 说明
    规则名称 数据加工失败条数监控
    作用 用于监控数据加工任务在15分钟内加工失败情况。当加工失败条数大于规则参数中监控阈值时触发告警。
    参数配置
    • 监控的加工任务ID:数据加工任务ID,例如dd2de8e7e23f3e42ffbb32fe05710372

      默认值为.*,表示对所有数据加工任务进行监控。多个任务ID可用竖线(|)分割。

    • 监控阈值:当数据加工任务的失败条数超过该值时,触发告警。默认值为10条。
    • 行动策略:发送告警时的具体行动策略,包括通知渠道和告警内容模板。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度,包括严重报告。默认值为
    关联仪表盘 数据加工诊断 > 失败日志数总计
    消除方法 请按照如下原则进行处理:
    1. 请优先按照数据加工异常报错监控消除方法进行处理。如果没有任何报错信息,则进行下一步。
    2. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。