如何配置监控报警

阿里云任务调度XXL-JOB支持任务维度和实例集群维度的监控报警配置。在任务运行时,通过指定监控报警配置,可以帮助您及时了解任务的执行情况,及时发现和处理问题。

任务维度监控报警配置

登录XXL-JOB控制台,并在顶部菜单栏选择地域。单击指定XXL-JOB实例,在左侧导航栏,选择任务管理,单击指定任务操作列的编辑。在通知配置界面配置对应任务级别监控报警信息。

image

通知配置参数说明如下:

配置项

描述

默认值

超时报警

任务执行超时是否发送告警。

开启

超时时间

任务执行超时的时间,任务执行超过设定值,上报超时报警。

7200秒

超时终止

任务执行超过指定时间是否自动停止,防止把下一次调度卡住。

关闭

成功通知

任务执行成功是否通知给联系人。对于级别比较重要的任务,建议设置运行成功后通知联系人。

关闭

失败报警

任务执行失败是否告警。

开启

连续失败次数

任务连续失败指定次数才告警。

1

无可用机器报警

任务调度的时候没有可用执行器是否告警。

开启

通知方式

上报成功通知时,超时通知的方式。目前支持短信、Webhook、邮件和电话。

重要

如果配置项通知方式包含webhook方式,则需要额外配置以下内容。

  1. 如果选用webhook告警(钉钉/企业微信/飞书),需要通过公网外发,需要您的VPC网络绑定公网NAT网关,如下图:

    image

  2. 如Webhook有安全限制,则需在对应的Webhook机器人上配置消息内容白名单。例如:钉钉机器人增加关键字SchedulerX(区分大小写),否则无法收到告警信息。

    image

通知对象

集成云监控联系人,需要去云监控配置联系人并激活联系方式。

实例维度监控报警配置

  1. 登录XXL-JOB控制台,并在顶部菜单栏选择地域。单击进入指定XXL-JOB实例,在左侧导航栏,选择基础信息菜单。

  2. 在调度统计大盘里,单击右上角image下的设置报警规则,或者单击image图标,可以进行阈值告警(例如调度总数下跌20%告警)。

    b7cf82a93b53c9c0d5f89246cdb038cf

  3. 单击创建告警规则,选择产品为分布式任务调度,选择指定实例,配置报警规则。

    image

  4. 单击添加规则,这里以简单指标为例,监控指标为失败次数,添加报警规则。

    image

  5. 添加报警联系人组,单击确认即可完成监控报警配置。

    image