全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 更多
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 智能硬件
DataWorks(数据工场)

监控设置

更新时间:2017-12-15 16:03:17

监控报警模块是调度任务节点的监控保障系统,当任务出现错误的时候,系统会通过预定义的方式告知您任务失败,您可以按照自己定义的规则来配置告警规则。

接收报警信息以下规则

  • 若接收人设置的是子账号,但是子账号没有在数加控制台中设置手机号,那么将会把报警信息发送给主账号。

  • 若主账号在数加控制台中也没有设置手机号,则会读取个人信息中的联系方式,发送短信。

配置监控报警

在监控设置中,您可新建报警,来对任务进行监控。若任务没有运行成功或者没有按时运行,都会有报警信息通知,监控设置页面如下所示:

1

  • 新建报警

    单击新建报警会弹出如下提示框:

    1

    新建报警时需要设置:任务名、报警原因、报警方式、接收人等。

    • 任务名:支持模糊查询,支持多选(若选择了多个任务,则会一次性建立多个报警)。

    • 报警原因:只支持选择一种原因(如果某个任务很重要,需要监控两种原因,那可以针对这个任务,多建一个报警,用来监控另一种原因)。

    • 报警方式:支持多选,可以选择邮件和短信同时通知(需要在数加控制台中的个人信息中设置自己的邮箱/手机号才会收到报警)。

    • 接收人:只支持单选(其他人包含:该项目中的其他成员,非本项目的子账号,无法选择)。

    • 未完成:设置未完成报警时,需要指定一个时间点,若超过该时间点,任务还未运行完毕,则会报警提示。

在配置监控报警时,请注意以下规则:

  • 监控报警属于准实时监控,会有几分钟的延迟。

  • 所有类型的监控报警默认都有3次提醒,每次间隔半个小时。例如以下情况:

    • 假如配置了一个任务A在03:00的未完成提醒:

      • 若任务A在03:00未成功,则03:00左右会发送第一次报警。

      • 若之后任务一直都是未成功状态,则会在03:30和04:00左右继续发送报警。

      • 若任务在报警间隔中达到了成功的状态,未完成报警将不再发送。

    • 假如配置了任务A的出错提醒:

      • 出错报警会在任务出错后发出第一次报警,若一直没有处理这个出错任务,则会在之后的一个小时内每隔30分钟发出出错报警。
      • 接收到报警后,进行相关的处理并重跑了任务,再次出错的话,会被重新记次,故不必担心任务出错的次数用完的问题。
  • 如果只配置了未完成报警,任务出错将不会提醒。比如您接到任务未完成的提醒,查看任务状态,是还在运行中,若运行中的状态持续到三次未完成提醒之后出错了,那这个出错的状态不会被报警出来,除非您配置了任务的出错提醒。

  • 监控报警的监控范围目前只限制在当前业务日期的日常调度任务,如果是补数据任务出错,或是任务跨天出错了(比如今天是2月11日,那么今天就只监控业务日期是2月10日的日常任务实例),都会监控不到,此时即使配置了任务出错提醒也会收不到报警。

  • 如果没有在数加平台里完善个人的联系信息,会导致在报警列表中看到报警发送的状态是发送失败,此时请进入个人信息页面确认个人联系信息是否完善。

报警监控列表

以列表的形式,对任务的报警设置进行展示,在列表里可以对报警进行筛选、操作等。监控列表如图所示:

1

  • 筛选功能:如上图中的模块①,为您提供了任务名查询、报警原因过滤、接收方式过滤。

  • 操作:如上图中的模块②,您可对当前报警进行修改(只可修改报警原因、报警方式、接收人)、删除、报警关闭等。

    注意

    报警关闭:关闭当前设置的报警,关闭后的报警设置,即使任务失败,也不会有任何报警提示。

  • 批量操作:如上图中的模块③,只能对报警设置进行批量删除。

    注意

    若想查看被监控任务的报警记录,请参见监控记录

本文导读目录