本文为您汇总智能监控的相关问题。

在运维中心设置报警后收不到,该如何排查?

此场景下,我们需要先确认是否有真实触发报警,在真实触发报警但未收到的情况下,我们根据不同的报警类别,将其再细分为两个场景:配置电话、短信和邮箱报警但收不到,该如何排查,和配置钉钉群报警后但收不到报警信息,该如何排查。以下为具体排查思路:

  • 确认是否有成功触发报警?
    • 如果是调度任务报警,您可以在周期实例面板确认实例运行状态,是否可以正常触发报警。关于各个规则触发条件可参考文档以下文档。自定义规则报警触发条件可参考:自定义规则,基线报警触发条件可参考文档:智能监控概述
    • 如果是实时同步任务报警,您可以在运维中心界面左侧菜单栏实时任务运维中选择实时同步任务,查看实时同步任务运行详情。
  • 有真实触发报警,但配置的电话、短信和邮箱未收到报警,该如何排查?

    此场景下您需要先了解,如何在DataWorks配置报警联系人的手机、邮箱。

    电话、短信和邮箱报警,将通过DataWorks控制台报警配置报警联系人页面所设置的个人信息来报警。主要配置步骤如下图所示:

    配置报警人信息如果报警配置后未收到,您可以在报警联系人处确认以下几点:
    • 是否已经在此处配置好个人信息。
    • 新增或变更个人信息后,是否已经在手机、邮箱激活。
    • 新增或变更个人信息并且激活后,是否已点击一键应用所有联系方式使其生效。
    说明
    • 阿里云主账号及有AliyunDataWorksFullAccess权限的子账号,可以为其他RAM子账号设置个人信息。配置详情可参考文档:查看和设置报警联系人
    • 如果未正确设置报警接收人的手机或邮箱信息,系统会向基本接收管理中产品的欠费、停服、即将释放等信息的消息接收人发送告警信息,导致报警接收人未收到告警短信或邮件。
  • 有真实触发报警,但配置钉钉群接收报警未收到报警,该如何排查?

    请确认以下几点:

    • 1. 规则配置页面输入的钉钉机器人地址是否正确?
      • 调度任务监控(基线监控与自定义规则监控)配置的钉钉机器人WebHook地址是否正确,是否多了空格。
      • 实时同步报警配置需要配置的是钉钉群机器人TOKEN信息。实时同步报警
    • 2. 钉钉群机器人配置是否正确?

      为保障钉钉群可以正常接收到报警信息,钉钉群机器人配置中、安全设置仅支持添加自定义关键词,并且自定义关键词需要包含DataWorks。关于钉钉机器人配置详情可参考文档:配置钉钉机器人报警

      钉钉机器人配置

不需要接收任务的报警,该如何处理?

一条基线纳入监控后,该基线上的任务及基线上任务的上游的所有任务都会被监控。如果基线上的任务或节点的上游节点影响到基线上受保障的任务的数据产出,则智能监控会生成一个事件,事件默认报警给任务责任人。详情请参见智能监控1
如上图所示,假设整个DataWorks只有6个任务节点,任务D和任务E属于受保障基线上的节点。任务D和任务E及它们所有的上游节点,均会被纳入监控范围。即上图中的任务A、任务B、任务D和任务E出现异常(出错或变慢),也会被智能监控察觉,而任务C和任务F不受监控。
  • 如果任务D和任务E本身不需要接收报警,请联系基线责任人,从基线上移除任务D和任务E。
  • 任务A和任务B是受保障的任务D和任务E的上游任务,虽然不在基线上,但会影响基线数据的产出。一旦任务A和任务B出错或变慢,便会产生事件报警,默认报警给任务责任人。

    如果任务A和任务B无需接收报警,请联系任务责任人删除任务D和任务E对它们的依赖。

为什么在基线实例页面会显示基线状态为空基线?

以下几个将会导致空基线产生:

  • 场景一:节点只能存在在一条基线上。当任务从一条基线添加到另一条基线,实际上是节点在基线上的迁移,当一条基线上一个任务都没有的时候(原基线上的任务全都被移走),这条开启状态的基线会成为空基线。
  • 场景二:基线新建当天会显示空基线,基线开启第二天正常产生基线实例。
  • 场景三:小时基线对应的实例周期填写错误。
    说明 假设小时任务定时每天6点,18点执行,那么此任务周期数为2,在小时基线配置时,任务第一个周期为6点,第二个周期为28点。

为什么开启的基线破线未报警?

基线开关开启的基线监控是针对任务的。如果所有的任务都正常,即使破线也不会报警,因为所有的任务都运行正常,无法判断出哪个任务出错。

任务都正常但基线仍破线的原因,通常有以下原因:
  • 设置的基线时间不合理。
  • 任务的依赖有问题,即使基线破线也不报警。

变慢的任务是否可以不报警?

任务变慢报警一定要满足以下两个条件:
  • 任务处于重要的基线上游。
  • 任务和往常比较,确实存在变慢的情况。
您可以在事件管理页面查看下游基线信息,并和下游监控任务的基线方确认任务变慢的影响程度。
  • 如果任务变慢的影响不大,可以选择忽略。
  • 如果确认要为下游方负责,请维护好任务。

为什么未收到出错任务的报警?

并不是所有任务出错后都会报警,任务需要满足下述条件之一,才会在出错后进行报警:
  • 处于某条开启状态的基线的上游。关于基线报警的说明请参考文档:基线管理
  • 设置了相关的自定义提醒规则。关于自定义报警规则设置,详情请参考文档:自定义规则

如何处理夜间收到报警的情况?

  1. 进入数据开发页面:
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
  2. 单击左上角的图标图标,选择全部产品 > 任务运维 > 运维中心
  3. 在左侧导航栏,单击智能监控 > 事件管理
  4. 事件管理页面关闭报警。您可以通过以下两种方式关闭夜间的报警:
    • 处理报警事件,在处理期间会暂停事件报警:
      1. 单击相应事件后的处理
      2. 处理事件对话框中,设置预计处理时间
      3. 单击确定
        说明 事件的处理操作记录会被记录,并且在处理期间暂停报警。
    • 忽略报警事件,永久关闭事件报警:
      1. 单击相应事件后的忽略
      2. 忽略事件对话框中,单击确定
        说明 事件的忽略操作记录会被记录,忽略后会永久关闭事件报警。