如何配置监控报警

更新时间:2025-03-27 02:03:45

阿里云任务调度XXL-JOB版支持任务维度、实例和应用集群维度的监控报警配置。在任务运行时,通过指定监控报警配置,可以帮助您及时了解任务的执行情况,及时发现和处理问题。

任务维度监控报警配置

操作步骤

登录XXL-JOB控制台,并在顶部菜单栏选择地域。单击指定XXL-JOB实例,在左侧导航栏,选择任务管理,单击指定任务操作列的编辑。在通知配置界面配置对应任务级别监控报警信息。

image

通知配置参数说明如下:

配置项

描述

默认值

配置项

描述

默认值

超时报警

任务执行超时是否发送告警。

开启

超时时间

任务执行超时的时间,任务执行超过设定值,上报超时报警。

7200

超时终止

任务执行超过指定时间是否自动停止,防止把下一次调度卡住。

关闭

成功通知

任务执行成功是否通知给联系人。对于级别比较重要的任务,建议设置运行成功后通知联系人。

关闭

失败报警

任务执行失败是否告警。

开启

连续失败次数

任务连续失败指定次数才告警。

1

无可用机器报警

任务调度的时候没有可用执行器是否告警。

开启

通知方式

上报成功通知时,超时通知的方式。目前支持短信、Webhook、邮件和电话。

重要

如果配置项通知方式包含webhook方式,则需要额外配置以下内容。

  1. 如果选用webhook告警(钉钉/企业微信/飞书),需要通过公网外发,需要您的VPC网络绑定公网NAT网关,如下图:

    image

  2. Webhook有安全限制,则需在对应的Webhook机器人上配置消息内容白名单。例如:钉钉机器人增加关键字SchedulerX(区分大小写),否则无法收到告警信息。

    image

通知对象

集成云监控联系人,需要去云监控配置联系人并激活联系方式。

实例和应用维度监控报警配置

基于任务调度统计信息,支持用户在云监控配置该实例下任务调度信息报警,常见场景如下:

  • 实例维度:某实例下所有任务,调度下跌30%告警。

  • 应用维度:某实例下的某个应用,连续3分钟失败超过5次告警。

操作步骤

  1. 登录XXL-JOB控制台,并在顶部菜单栏选择地域。单击进入指定XXL-JOB实例,在左侧导航栏,选择基础信息菜单。

  2. 在调度统计大盘里,单击右上角image下的设置报警规则,或者单击image图标,进入云监控告警规则设置。

    b7cf82a93b53c9c0d5f89246cdb038cf

  3. 单击创建报警规则,选择产品为分布式任务调度,单击添加实例选择指定实例,并配置报警规则。

    重要

    沉默周期:表示告警发送一次后会屏蔽指定时间周期内该告警信息的再次发送。

    image

  4. 单击添加规则,支持选择监控指标。监控指标分为实例级别应用级别两个维度,您可以根据需要选择配置。

    • 实例级别:相应的指标监控统计的是该实例下所有任务触发执行情况。

      image

    • 应用级别:需选择实例中对应的应用,相应的监控指标统计该实例下指定应用的任务触发执行情况。

      • 如果该应用对应的指标还没有上报过,则appName下拉框无法自动选择,可以手动输入。

      • 如果appName为空,则表示所有应用都默认按照该规则报警。

      image

  5. 添加报警联系人组,单击确认即可完成监控报警配置。

    image

  • 本页导读 (1)
  • 任务维度监控报警配置
  • 操作步骤
  • 实例和应用维度监控报警配置
  • 操作步骤
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等