智能监控是DataWorks任务运行的监控及分析系统,根据监控规则和任务运行情况,智能监控决策是否报警、何时报警、如何报警以及给谁报警。智能监控会自动选择最合理的报警时间、报警方式以及报警对象。

智能监控旨在:

  • 降低您的配置成本。
  • 杜绝无效报警。
  • 自动覆盖所有重要任务。
通常情况下,监控系统只需您配置相应的监控规则即可,但这样无法满足DataWorks的需求,原因如下:
  • DataWorks的任务极多,您无法准确地梳理出需要被监控的任务。部分DataWorks业务任务量较大,且任务之间的依赖较为复杂。即使您知道最重要的任务是什么,也很难查找任务的所有上游并全部进行监控。在这样的背景下,如果您直接监控所有任务,会触发较多无用的报警,从而导致有用报警被忽略,效果等同于没有监控。
  • 针对每个任务监控的报警方式不同:部分监控需要任务运行超过1个小时报警,而有些监控需要任务运行超过2个小时报警。如果单独对每个任务设置监控极为繁琐,并且很难预估每个任务应该设置的报警阈值。
  • 针对每个任务监控的报警时间不同:例如不重要的任务可以放到早上上班后再报警,而重要任务则需要夜间立刻报警,常用的监控系统无法区分每个任务的重要性。
  • 报警如何关闭问题:如果报警一直进行提醒,需要在您响应时提供关闭报警的入口。

智能监控拥有一整套的监控报警逻辑,您只需要提供所关注业务的重要任务名称,智能监控即可监控整体任务的产出过程,并生成对应的标准统一的报警机制。智能监控同时也提供了轻量级的自助配置监控功能,使您可以根据自己的需求定义报警规则。

智能监控当前已承担了阿里巴巴集团所有重要业务的任务监控,智能监控的全路径监控功能保障了阿里巴巴集团所有重要业务的任务整体产出链路,智能监控的上下游路径分析功能可以及时发现风险并为业务部门提供运维信息。在智能监控的分析体系下,阿里巴巴集团业务保持了长期的高稳定性。