全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网
DataWorks(数据工场)

监控设置

更新时间:2017-09-06 22:49:19

监控介绍

监控报警模块是调度任务节点的监控保障系统,当任务出现错误的时候,系统会通过预定义的方式告知用户任务失败。用户可以按照自己定义的规则来配置告警规则。

如何配置监控报警

在监控设置里,可以新建报警,来对任务进行监控;若任务没有运行成功或者没有按时运行,都会有报警信息通知,监控设置页面如下:

3-1

  • 新建报警

单击新建报警会弹出如下提示框:

3-2

新建报警需要设置:任务名、报警原因、报警方式、接收人等;任务名:支持模糊查询,支持多选(若选择了多个任务,则会一次性建立多个报警);

报警原因:只支持选择一种原因(如果某个任务很重要,需要监控两种原因,那可以针对这个任务,多建一个报警,用来监控另一种原因);

报警方式:支持多选,可以选择邮件和短信同时通知(需要在数加控制台中的个人信息里设置自己的邮箱/手机号才会收到报警);

接收人:只支持单选(其他人包含:该项目中的其他成员,非本项目的子账号,无法选择);

未完成:设置未完成报警时,需要指定一个时间点,若超过该时间点,任务还未运行完毕,则会报警提示;

注:在配置监控报警时要注意以下规则

  1. 监控报警属于准实时监控,会有几分钟的延迟;
  2. 所有类型的监控报警默认都有3次提醒,每次间隔半个小时。例如以下情况:a) 假如配置了一个任务A在03:00的未完成提醒:若任务A在03:00未成功,则03:00左右会发送第一次报警;若之后任务一直都是未成功状态,则会在03:30和04:00左右继续发送报警;若任务在报警间隔中达到了成功的状态,未完成报警将不再发送;b) 假如配置了任务A的出错提醒:出错报警会在任务出错后发出第一次报警,若一直没有处理这个出错任务,则会在之后的一个小时内每隔30分钟发出出错报警;接收到报警后,进行相关的处理并重跑了任务,再次出错的话,会被重新记次,故不必担心任务出错的次数用完的问题。
  3. 如果只配置了未完成报警,任务出错将不会提醒。比如您接到任务未完成的提醒,查看任务状态,是还在运行中,若运行中的状态持续到三次未完成提醒之后出错了,那这个出错的状态不会被报警出来,除非您配置了任务的出错提醒;
  4. 监控报警的监控范围目前只限制在当前业务日期的日常调度任务,如果是补数据任务出错,或是任务跨天出错了(比如今天是2月11日,那么今天就只监控业务日期是2月10日的日常任务实例),都会监控不到,此时即使配置了任务出错提醒也会收不到报警;
  5. 如果没有在数加平台里完善个人的联系信息,会导致在报警列表中看到报警发送的状态是发送失败,此时请到个人信息页面确认个人联系信息是否完善。

报警监控列表

以列表的形式,对任务的报警设置进行展示,在列表里可以对报警进行筛选、操作等;监控列表如图所示:

3-3

筛选功能:如上图①部分所示,我们提供了任务名查询、报警原因过滤、接收方式过滤等;操作:如上图②部分所示,可以对当前报警进行修改(只可修改报警原因、报警方式、接收人)、删除、报警关闭等;

报警关闭:关闭当前设置的报警,关闭后的报警设置,即使任务失败,也不会有任何报警提示;

批量操作:如上图③所示,只能对报警设置进行批量删除;

注:若要查看被监控任务的报警记录,可以参考监控记录

本文导读目录