日志服务已内置数据投递监控规则模板,您只需添加对应的告警规则即可实时监控MaxCompute投递任务,并可通过钉钉等渠道接收到告警通知。本文介绍设置告警的相关操作。
前提条件
已创建MaxCompute投递任务。具体操作,请参见创建MaxCompute投递任务(新版)。
步骤一:开启任务运行日志
登录日志服务控制台。
在Project列表区域,单击目标Project。
该Project为MaxCompute投递任务所在的Project。
在页面左上方,单击图标。
进入开通任务运行日志页面。
如果您还未通过该Project的详细日志,则在服务日志页签中,单击开通服务日志。
如果您已开通过该Project的详细日志,则在服务日志页签中,单击图标。
设置如下参数,然后单击确定。
参数
说明
任务运行日志
打开任务运行日志开关后,系统将在您指定的Project中自动创建一个名为internal-diagnostic_log的Logstore,用于存储定时SQL、MaxCompute投递、OSS投递、数据导入等任务的运行日志与错误日志。日志字段说明,请参见数据导入、投递等任务的运行日志。
日志存储位置
开通任务运行日志功能后,需要选择日志的存储位置,即需要指定Project。可以设置为:
自动创建(推荐)。
当前Project。
同一地域下的其他Project。
开通任务运行日志后,您可以在指定Project下的internal-diagnostic_log Logstore中查看MaxCompute投递任务的运行日志与错误日志,其日志主题(__topic__)为etl_metrics。您也可以通过投递任务名称查询目标投递任务的运行日志与错误日志,对应的查询语句为
job_name:任务名称
,例如job_name:job-1646****946
。
步骤二:配置行动策略
步骤三:添加告警规则
日志服务已内置5种监控规则模板。更多信息,请参见数据投递监控规则。您只需根据业务需求,添加对应的告警规则即可。此处以添加数据投递延迟监控规则对应的告警规则为例。
登录日志服务控制台。
在Project列表区域,单击目标Project。
该Project为您internal-diagnostic_log Logstore所在的Project。
在左侧导航栏中,单击告警。
在告警规则页签中,单击新建告警右侧的。
单击从模板新建。
在从模板新建页签中,单击SLS数据投递。
单击数据投递延迟监控。
配置告警规则。
如果您有特定的需求,例如监控指定的Project、调整触发阈值等,请参见创建日志告警监控规则进行调整,否则保持默认配置即可。
如果您在步骤二新建了一个行动策略,则需要在 配置新建的行动策略。
添加完成后,您可以在监控规则列表中,查看已开启的告警规则。
相关操作
为MaxCompute投递任务设置告警后,您还可以进行如下操作。
操作 | 说明 |
屏蔽列表 | 屏蔽列表中的MaxCompute投递任务不会触发告警。 |
关闭告警规则 | 关闭告警规则后,告警规则不会再触发告警,状态变更为已关闭。 该操作不会删除规则参数中已设置的信息。需要再次监控时,无需重新设置规则参数。 |
临时关闭告警规则 | 临时关闭告警规则后,在指定时间内不再触发告警。 |
恢复告警规则 | 处于临时关闭状态的监控规则,可随时恢复告警。 |
删除告警规则 | 该操作会删除规则参数中已设置的信息。需要再次监控时,需要重新设置规则参数。 |
设置告警规则 | 修改告警规则的配置参数。 |
数据投递监控规则
日志服务内置的数据投递监控规则如下所示。
数据投递延迟监控规则
项目
说明
规则名称
数据投递延迟监控。
作用
用于监控MaxCompute投递任务中Shard消费延迟情况。当投递延迟时长大于监控阈值时,触发告警。
参数配置
监控的投递任务名称:需要监控的MaxCompute投递任务的名称。
默认值为
.*
,表示监控当前阿里云账号下所有的MaxCompute投递任务。多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式
.*
进行配置,例如sche.*,表示监控以sche开头的投递任务。
监控阈值:当MaxCompute投递任务的延迟时间超过该值时,触发告警。默认值为300秒。
行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
严重度:告警消息的严重度。
静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
关联仪表盘
数据流量观测仪表盘中的进度落后图表。
消除方法
请按照如下方法进行处理。
确认源Logstore的数据量是否明显增长,处理速率是否同时提高。
如果源Logstore的数据量增长的同时处理速率也提高,则说明源Logstore数据在增长,MaxCompute投递任务在自动扩容资源。请先观察5分钟,如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
如果源Logstore的数据量增长的同时处理速率未提高或者Shard消费延迟还处于上涨趋势,则说明可能是因为源Logstore的Shard数目不足,导致数据投递资源扩展受限,您需要手动分裂源Logstore的Shard。具体操作,请参见分裂Shard。完成分裂后,请先观察5分钟。如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
如果都不是,则执行下一步。
确认是否存在数据投递异常报错告警。
如果存在,请按照数据投递异常报错监控的消除方法进行处理。处理完成后,观察5分钟。如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
如果不存在,则执行下一步。
准备Project、Logstore和MaxCompute投递任务名称等信息,提交工单联系日志服务技术支持人员。
数据投递异常报错监控规则
项目
说明
规则名称
数据投递异常报错监控。
作用
用于监控MaxCompute投递任务中的异常报错。当MaxCompute投递任务出现异常报错后,触发告警。
参数配置
监控的投递任务名称:需要监控的MaxCompute投递任务的名称。
默认值为
.*
,表示监控您当前阿里云账号下所有的MaxCompute投递任务。多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式
.*
进行配置,例如sche.*,表示监控以sche开头的投递任务。
行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
严重度:告警消息的严重度。
静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
关联仪表盘
数据流量观测仪表盘中的运行异常图表。
消除方法
请按照如下方法进行处理。
如果错误信息中包含Unauthorized、InvalidAccessKeyId或SignatureNotMatch,则说明MaxCompute投递任务读取源Logstore数据或者写入数据到MaxCompute的权限不足。请检查授权操作。更多信息,请参见授权概述。
如果错误信息中包含ProjectNotExist或LogStoreNotExist,则说明MaxCompute投递任务涉及的Project或Logstore不存在。请登录日志服务控制台确认。
如果错误信息中包含TransformError,则说明源Logstore中的数据不满足当前的数据投递逻辑。请从错误信息中找到原始数据的位置,然后修改MaxCompute投递任务的配置并重启任务。如何修改MaxCompute投递任务,请参见修改配置并重启任务。
如果问题仍未解决,请准备Project、Logstore和MaxCompute投递任务名称等信息,提交工单联系日志服务技术支持人员。
数据投递流量(绝对值)监控规则
项目
说明
规则名称
数据投递流量(绝对值)监控。
作用
用于监控MaxCompute投递任务在5分钟内的平均投递条数。当平均投递的日志条数低于监控阈值时触发告警。
参数配置
监控的投递任务名称:需要监控的MaxCompute投递任务的名称。
默认值为
.*
,表示监控您当前阿里云账号下所有的MaxCompute投递任务。多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式
.*
进行配置,例如sche.*,表示监控以sche开头的投递任务。
监控阈值:当平均投递条数低于该值时,触发告警。默认值为40000行/秒。
行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
严重度:告警消息的严重度。
静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
关联仪表盘
数据流量观测仪表盘中的处理速率(events/s)图表。
消除方法
请按照如下方法进行处理。
确认投递流量变化趋势与源Logstore的数据量增长或减少趋势是否一致。
如果一致,则说明是源Logstore数据量增长或减少导致的。无需处理。
如果不一致,则执行下一步。
确认是否存在数据投递延迟监控告警。
如果存在,请处理延迟告警。处理完成后,先观察15分钟。
如果数据投递延迟回到1分钟以内,且投递流量与源Logstore数据量增长或减少的趋势一致,则说明问题解除。
如果数据投递延迟回到1分钟以内,但是投递流量与源Logstore数据量增长或减少的趋势仍然不一致,则进行下一步。
如果不存在,则执行下一步。
准备Project、Logstore和MaxCompute投递任务名称等信息,提交工单联系日志服务技术支持人员。
数据投递流量(日同比)监控规则
项目
说明
规则名称
数据投递流量(日同比)监控。
作用
用于监控MaxCompute投递任务在5分钟内相比昨日的增长阈值和下跌阈值情况。当增长大于日同比增长阈值或下跌超过日同比下跌阈值时触发告警。
参数配置
监控的投递任务名称:需要监控的MaxCompute投递任务的名称。
默认值为
.*
,表示监控您当前阿里云账号下所有的MaxCompute投递任务。多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式
.*
进行配置,例如sche.*,表示监控以sche开头的投递任务。
日同比增长阈值:当数据投递量日增长大于该值时,触发告警。默认值为40%。
日同比下跌阈值:当数据投递量日下跌大于该值时,触发告警。默认值为20%。
行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
严重度:告警消息的严重度。
静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
关联仪表盘
数据流量观测仪表盘中的处理速率(events/s)图表。
消除方法
请按照如下方法进行处理。
确认投递流量变化趋势与源Logstore的数据量增长或减少趋势是否一致。
如果一致,则说明是源Logstore数据量增长或减少导致的。无需处理。
如果不一致,则执行下一步。
确认是否存在数据投递延迟监控告警。
如果存在,请处理延迟告警。处理完成后,先观察15分钟。
如果数据投递延迟回到1分钟以内,且投递流量与源Logstore数据量增长或减少的趋势一致,则说明问题解除。
如果数据投递延迟回到1分钟以内,但是投递流量与源Logstore数据量增长或减少的趋势仍然不一致,则进行下一步。
如果不存在,则执行下一步。
准备Project、Logstore和MaxCompute投递任务名称等信息,提交工单联系日志服务技术支持人员。
数据投递失败条数监控规则
项目
说明
规则名称
数据投递失败条数监控。
作用
用于监控MaxCompute投递任务在15分钟内的投递失败情况。当投递失败的数据条数大于监控阈值时,触发告警。
参数配置
监控的投递任务名称:需要监控的MaxCompute投递任务的名称。
默认值为
.*
,表示监控您当前阿里云账号下所有的MaxCompute投递任务。多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式
.*
进行配置,例如sche.*,表示监控以sche开头的投递任务。
监控阈值:当投递失败的数据条数超过该值时,触发告警。默认值为10条。
行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
严重度:告警消息的严重度。
静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
关联仪表盘
数据流量观测仪表盘中的读(写)失败条数图表。
消除方法
请按照如下方法进行处理。
确认是否存在数据投递异常报错告警。
如果存在,请按照数据投递异常报错监控的消除方法进行处理。处理完成后,观察5分钟。如果投递失败的条数降到正常范围,则说明问题解除。否则请执行下一步。
如果不存在,则执行下一步。
准备Project、Logstore和MaxCompute投递任务名称等信息,提交工单联系日志服务技术支持人员。
- 本页导读 (1)