文档

混合云场景下大数据智能运维及监控

更新时间:
一键部署

本文验证了智能运维及监控功能,通过智能运维可以快速查看运行异常任务,任务运行时间等,并且可以修改异常任务。可以通过系统默认监控规则或者自定义监控规则来监控任务运行状态,对于运行异常的任务能快速监控并及时发送邮件或者短信通知任务责任人。

前提条件

DataWorks服务和运维服务运行正常;

专有云企业版V3.14及以上。

使用场景

智能监控功能用于监控任务的运行情况,系统根据设置的全局规则、自定义规则及智能基线,一旦检测到规则被触发,将根据设置,使用邮件、短信等形式进行通知,方便您及时发现并处理异常问题。

方案概述

  1. 方案框架。1

    下表为运维中心各模块功能使用说明:

    模块

    描述

    环境支持情况

    查看运维大屏

    运维大屏以报表的形式为您展示任务的运行的重要指标。包括调度任务的关键运维指标统计与数据集成离线同步与实时同步任务运维专页。

    开发环境运维中心无此模块

    实时同步任务运行与管理

    在实时任务运维界面,您可以针对实时任务进行启动、停止、下线与监控报警相关操作。

    查看周期任务

    周期任务运维为您展示任务提交到调度系统后的调度任务列表与调度环境产生的周期实例。周期任务面板展示当前所有的调度节点,您可以在周期任务面板修改周期调度任务使用的资源组、责任人等信息。

    DataWorks每晚会根据周期任务自动生成第二天待运行的周期实例,同时支持您手动触发周期任务,分别生成补数据实例和测试实例,您可以通过生成的实例查看任务的运行详情。

    开发环境运维中心无法自动调度生成周期实例。

    手动任务运维

    手动任务运维为您展示任务提交到调度系统后的手动任务列表与经过手动触发运行后生成的手动实例。手动任务面板展示当前所有的手动触发式任务,您可以在手动任务面板修改任务执行时使用的调度资源组,责任人等信息。

    在手动任务面板中,选择类型为手动业务流程,支持您手动触发任务运行并且生成手动实例,您可以查看生成的手动实例的运行详情。

    智能监控

    监控对象:周期任务、实时计算任务、资源水位。

    监控支持为自动调度的周期任务设置监控报警,监控在自动调度场景下的周期实例运行情况、支持独享资源组水位监控及实时计算任务运行状态监控。

    监控方式:自定义规则、智能基线

    支持针对指定对象(节点、业务流程、工作空间、基线、实时计算任务、独享调度资源组、独享数据集成资源组)的监控报警,同时也支持针对整个“业务线”的基线预警,并通过您配置的报警方式来发送相应的报警信息。

    报警方式:支持短信、邮件、电话、钉钉群和webhook,已支持设置值班表,将对应时间的报警消息报警给对应的值班人员。

    开发环境运维中心无此模块

    资源运维

    资源运维主要对独享调度资源组及独享数据集成资源组的使用情况(使用率、运行中任务列表、排队任务列表)及进行监控和自动运维,支持查看资源组使用趋势。

    引擎运维

    目前支持对EMR引擎的运维。在DataWorks实例任务中,E-MapReduce计算引擎任务会被分为若干作业有序执行,您可以使用DataWorks的引擎运维功能,查看各个E-MapReduce作业的详细信息,及时查找并清理运行有误的作业,避免该类作业阻塞下游任务,影响实例任务的正常运行。

    开发环境运维中心无此模块

    运行诊断

    DataWorks运维中心为您提供运行诊断功能,帮助您掌握任务运行的全链路信息,以便迅速定位问题。

    开发环境运维中心无此模块

  2. 方案流程。

    1. 创建业务流程并进行任务发布。

    2. 查看任务运行状态,配置任务信息。

    3. 配置任务节点基线,并应用基线到任务节点。

    4. 模拟任务节点异常,查看智能监控。

实践步骤

  1. 创建业务流程并进行任务发布。

    1. 创建业务流程并配置调度周期为日调度。

      登录Apsara Uni-manager运营控制台,在上方导航栏选择产品>大数据>DataWorks,进入DataStudio数据开发页面,在页面中创建业务流程,虚拟节点shell_start,shell节点shell_A,shell_B,shell_C,任务执行顺序为任务A>任务B>任务C,具体如下图。12

      1. 任务A配置。

        任务A启动时间7点,任务执行时间20分钟,配置如下:

        time1=$(date"+%Y-%m-%d %H:%M:%S")

        echo "start"$(time1)

        sleep 20m

        time2=$(date"+%Y-%m-%d %H:%M:%S")

        echo "start"$(time2)

        exit 03

      2. 任务B配置。

        任务B启动时间7点30,任务执行时间20分钟,配置如下:

        time1=$(date "+%Y-%m-%d%H:%M:%S")

        echo "start "$(time1)

        sleep 20m

        time2=$(date "+%Y-%m-%d%H:%M:%S")

        echo "start "$(time2)

        exit 04

      3. 任务C配置。

        任务C启动时间8点,任务执行时间20分钟,配置如下:

        time1=$(date "+%Y-%m-%d%H:%M:%S")

        echo "start "$(time1)

        sleep 20m

        time2=$(date "+%Y-%m-%d%H:%M:%S")

        echo "start "$(time2)

        exit 05

    2. 发布任务到生产环境。

      在DataStudio页面单击发布按钮,进入发布页面,然后完成任务发布。67

  2. 查看任务运行状态,配置任务信息。

    1. 选择DataStudio页面右上方运维中心,跳转进入运维中心页面,在运维大屏页面可以查看所有任务的运行结果信息。8

    2. 运维中心页面中,在左侧导航栏选择周期任务运维>周期任务,可以查看已经发布了的周期实例,并且可以对任务进行配置修改。9

    3. 运维中心页面中,在左侧导航栏选择周期任务运维>周期实例,可以查看已经运行了的周期实例,并且可以对任务进行管理。10

  3. 配置任务节点基线,并应用基线到任务节点。

    1. 配置任务节点基线。

      在左侧导航栏选择运维中心>智能监控>基线管理,新建基线,添加任务节点基线,设置承诺时间为8:30。11

    2. 应用基线到任务节点。

      在左侧导航栏选择运维中心>周期任务运维>周期任务,然后选择要配置基线的任务,选择更多>添加到基线,就可以完成任务节点基线设置。1

  4. 模拟任务节点异常,查看智能监控。

    1. 任务运行3天后修改任务A节点执行时间,模拟任务长时间运行。

      修改shell_A时间为300m,来模拟任务异常,修改完成需要保存并重新发布。配置如下:

      time1=$(date "+%Y-%m-%d%H:%M:%S")

      echo "start "$(time1)

      sleep 300m

      time2=$(date "+%Y-%m-%d%H:%M:%S")

      echo "start "$(time2)

      exit 013

    2. 查看智能监控。

      在左侧导航栏选择智能监控>报警信息,可以查看到任务报警信息,这里会以邮件、短信的方式通知到对应的责任人。1

  • 本页导读
文档反馈