日志服务已内置监控规则模板,您只需添加对应的告警实例即可实时监控OSS投递任务,并可通过钉钉等渠道接收到告警通知。本文介绍设置告警的相关操作。

前提条件

已创建OSS投递任务。具体操作,请参见创建OSS投递任务(新版)

步骤一:开启任务运行日志

  1. 登录日志服务控制台
  2. 在Project列表区域,单击目标Project。
    该Project为OSS投递任务所在的Project。
  3. 在页面左上方,单击概览图标。
  4. 进入开通任务运行日志页面。
    • 如果您开未通过该Project的详细日志,则在服务日志页签中,单击开通服务日志
    • 如果您已开通过该Project的详细日志,则在服务日志页签中,单击服务日志图标。
  5. 设置如下参数,然后单击确定
    参数说明
    任务运行日志打开任务运行日志开关后,系统将在您指定的Project中自动创建一个名为internal-diagnostic_log的Logstore,用于存储定时SQL、MaxCompute投递、OSS投递、数据导入等任务的运行日志与错误日志。日志字段说明,请参见数据导入、投递等任务的运行日志
    日志存储位置开通任务运行日志功能后,需要选择日志的存储位置,即需要指定Project。可以设置为:
    • 自动创建(推荐)。
    • 当前Project。
    • 同一地域下的其他Project。
    开通任务运行日志后,您可以在指定Project下的internal-diagnostic_log Logstore中查看OSS投递任务的运行日志与错误日志,其日志主题(__topic__)为etl_metrics。您也可以通过投递任务名称查询目标投递任务的运行日志与错误日志,对应的查询语句为job_name:任务名称,例如job_name:job-1646****946

步骤二:配置行动策略

  1. 登录日志服务控制台
  2. 进入行动策略管理页面。
    1. 在Project列表区域,单击任意的Project。
    2. 在左侧导航栏中,单击告警
    3. 选择告警管理 > 行动策略
  3. 找到目标行动策略(sls.app.export.builtin),单击修改
    您也可以创建新的行动策略用于告警通知。具体操作,请参见创建行动策略
  4. 编辑行动策略页面的第一行动列表页签中,将请求地址修改为钉钉群机器人的Webhook地址。其他选项,保持默认配置。
    如何获取钉钉群机器人的Webhook地址,请参见钉钉-自定义。您也可以根据业务需求,使用其他告警渠道。具体操作,请参见通知渠道说明
  5. 单击确认

步骤三:添加告警实例

日志服务已内置5种监控规则模板。更多信息,请参见告警投递监控规则。您只需根据业务需求,添加对应的告警实例即可。此处以添加数据投递延迟监控规则对应的告警实例为例。

  1. 登录日志服务控制台
  2. 在Project列表区域,单击目标Project。
    该Project为您internal-diagnostic_log Logstore所在的Project。
  3. 在左侧导航栏中,单击告警
  4. 规则/事务页签中,单击SLS数据投递
  5. 在规则列表中,单击数据投递延迟监控对应的添加
  6. 参数设置对话框中,配置监控规则,然后单击设置并开启
    参数说明
    告警名称告警名称,支持自定义。
    监控的投递任务名称需要监控的OSS投递任务的名称。
    • 默认值为.*,表示监控当前阿里云账号下所有的OSS投递任务。
    • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    监控阈值当OSS投递任务的延迟时间超过该值时,触发告警。默认值为300秒。
    行动策略当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。

    默认为sls.app.export.builtin(SLS数据投递内置行动策略)。您也可以自定义行动策略。具体操作,请参见创建行动策略

    严重度定义告警消息的严重度。
    静默期告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    添加完成后,您可以在监控规则列表中,单击数据投递延迟监控规则对应的+,查看已开启的告警实例。OSS投递告警

相关操作

为OSS投递任务设置告警后,您还可以进行如下操作。

操作说明
屏蔽列表屏蔽列表中的OSS投递任务不会触发告警。
关闭告警实例关闭告警实例后,告警实例不会再触发告警,状态变更为未开启

该操作不会删除规则参数中已设置的信息。需要再次监控时,无需重新设置规则参数。

临时关闭告警实例临时关闭告警实例后,在指定时间内不再触发告警。
恢复告警实例处于临时关闭状态的监控实例,可随时恢复告警。
删除告警实例删除告警实例,状态变更为未创建

该操作会删除规则参数中已设置的信息。需要再次监控时,需要重新设置规则参数。

设置告警实例修改告警实例的配置参数。

告警投递监控规则

日志服务已内置如下5种监控规则模板,用于监控OSS投递任务。

  • 数据投递延迟监控规则
    项目说明
    规则名称数据投递延迟监控。
    作用用于监控OSS投递任务中Shard消费延迟情况。当投递延迟时长大于监控阈值时,触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的OSS投递任务的名称。
      • 默认值为.*,表示监控当前阿里云账号下所有的OSS投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 监控阈值:当OSS投递任务的延迟时间超过该值时,触发告警。默认值为300秒。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘数据流量观测仪表盘中的进度落后图表。
    消除方法请按照如下方法进行处理。
    1. 确认源Logstore的数据量是否明显增长,处理速率是否同时提高。
      • 如果源Logstore的数据量增长的同时处理速率也提高,则说明源Logstore数据在增长,OSS投递任务在自动扩容资源。请先观察5分钟,如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
      • 如果源Logstore的数据量增长的同时处理速率未提高或者Shard消费延迟还处于上涨趋势,则说明可能是因为源Logstore的Shard数目不足,导致数据投递资源扩展受限,您需要手动分裂源Logstore的Shard。具体操作,请参见分裂Shard。完成分裂后,请先观察5分钟。如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
      • 如果都不是,则执行下一步。
    2. 确认是否存在数据投递异常报错告警。
      • 如果存在,请按照数据投递异常报错监控的消除方法进行处理。处理完成后,观察5分钟。如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
      • 如果不存在,则执行下一步。
    3. 准备Project、Logstore和OSS投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递异常报错监控规则
    项目说明
    规则名称数据投递异常报错监控。
    作用用于监控OSS投递任务中的异常报错。当OSS投递任务出现异常报错后,触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的OSS投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的OSS投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘数据流量观测仪表盘中的运行异常图表。
    消除方法请按照如下方法进行处理。
    • 如果错误信息中包含Unauthorized、InvalidAccessKeyId或SignatureNotMatch,则说明OSS投递任务读取源Logstore数据或者写入数据到OSS Bucket的权限不足。请检查授权操作。更多信息,请参见授权概述
    • 如果错误信息中包含ProjectNotExist或LogStoreNotExist,则说明OSS投递任务涉及的Project或Logstore不存在。请登录日志服务控制台确认。
    • 如果错误信息中包含TransformError,则说明源Logstore中的数据不满足当前的数据投递逻辑。请从错误信息中找到原始数据的位置,然后修改OSS投递任务的配置并重启任务。如何修改OSS投递任务,请参见修改配置并重启任务
    • 如果问题仍未解决,请准备Project、Logstore和OSS投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递流量(绝对值)监控规则
    项目说明
    规则名称数据投递流量(绝对值)监控。
    作用用于监控OSS投递任务在5分钟内的平均投递条数。当平均投递的日志条数低于监控阈值时触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的OSS投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的OSS投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 监控阈值:当平均投递条数低于该值时,触发告警。默认值为40000行/秒。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘数据流量观测仪表盘中的处理速率(events/s)图表。
    消除方法请按照如下方法进行处理。
    1. 确认投递流量变化趋势与源Logstore的数据量增长或减少趋势是否一致。
      • 如果一致,则说明是源Logstore数据量增长或减少导致的。无需处理。
      • 如果不一致,则执行下一步。
    2. 确认是否存在数据投递延迟监控告警。
      • 如果存在,请处理延迟告警。处理完成后,先观察15分钟。
        • 如果数据投递延迟回到1分钟以内,且投递流量与源Logstore数据量增长或减少的趋势一致,则说明问题解除。
        • 如果数据投递延迟回到1分钟以内,但是投递流量与源Logstore数据量增长或减少的趋势仍然不一致,则进行下一步。
      • 如果不存在,则执行下一步。
    3. 准备Project、Logstore和OSS投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递流量(日同比)监控规则
    项目说明
    规则名称数据投递流量(日同比)监控。
    作用用于监控OSS投递任务在5分钟内相比昨日的增长阈值和下跌阈值情况。当增长大于日同比增长阈值或下跌超过日同比下跌阈值时触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的OSS投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的OSS投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 日同比增长阈值:当数据投递量日增长大于该值时,触发告警。默认值为40%。
    • 日同比下跌阈值:当数据投递量日下跌大于该值时,触发告警。默认值为20%。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘数据流量观测仪表盘中的处理速率(events/s)图表。
    消除方法请按照如下方法进行处理。
    1. 确认投递流量变化趋势与源Logstore的数据量增长或减少趋势是否一致。
      • 如果一致,则说明是源Logstore数据量增长或减少导致的。无需处理。
      • 如果不一致,则执行下一步。
    2. 确认是否存在数据投递延迟监控告警。
      • 如果存在,请处理延迟告警。处理完成后,先观察15分钟。
        • 如果数据投递延迟回到1分钟以内,且投递流量与源Logstore数据量增长或减少的趋势一致,则说明问题解除。
        • 如果数据投递延迟回到1分钟以内,但是投递流量与源Logstore数据量增长或减少的趋势仍然不一致,则进行下一步。
      • 如果不存在,则执行下一步。
    3. 准备Project、Logstore和OSS投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递失败条数监控规则
    项目说明
    规则名称数据投递失败条数监控。
    作用用于监控OSS投递任务在15分钟内的投递失败情况。当投递失败的数据条数大于监控阈值时,触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的OSS投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的OSS投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 监控阈值:当投递失败的数据条数超过该值时,触发告警。默认值为10条。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘数据流量观测仪表盘中的读(写)失败条数图表。
    消除方法请按照如下方法进行处理。
    1. 确认是否存在数据投递异常报错告警。
      • 如果存在,请按照数据投递异常报错监控的消除方法进行处理。处理完成后,观察5分钟。如果投递失败的条数降到正常范围,则说明问题解除。否则请执行下一步。
      • 如果不存在,则执行下一步。
    2. 准备Project、Logstore和OSS投递任务名称等信息,提交工单联系日志服务技术支持人员。