运维中心

更新时间: 2024-11-29 15:01:07

数据集成、数据开发模块开发的任务提交或发布后,将进入开发环境或生产环境的运维中心。运维中心为您提供运维概览、任务运维、实例运维、监控管理、系统配置5大功能模块,您可针对提交的任务和生成的实例进行多方位的运维管理。

应用场景

  • 全局视角管控:Dataphin运维中心支持离线实例和实时实例的实例统计。异常统计情况,包括运行详情、运行趋势、运行失败实例数排行、运行失败实例对应任务数排行、失败报警实例数排行、延时报警实例数排行、运行状态统计、运行时长统计、失败次数统计、延时时长统计和报警排行。帮助您从全局视角管控实例的运行情况,及时同步异常信息,提升运维效率。

  • 任务运维管理:支持运维管理数据集成、建模研发、编码研发和数据萃取模块生成的代码任务,同时包括单节点及其上下游依赖任务或实例的状态查看及管理操作。

  • 运行资源管控:在计算引擎出现性能瓶颈、资源分配不足或需控制任务下发时间和顺序等场景时,可配置限流规则配置进行限流,以保障系统稳定性及优先分配资源保障数据产出。

  • 异常告警:基线运维支持配置物理任务和逻辑表字段告警规则,如果被监控的任务或字段异常,系统通过电话、短信、钉钉或邮件告警给您。

功能概述

当您在Dataphin中完成节点开发,并提交或发布至生产环境后,即可在运维中心对任务进行运维操作。包括周期任务的补数据、手动任务的运行、任务运行详情查看、任务运行状态监控和报警配置、实例及资源使用统计查看、任务运行超时或失败的运维策略配置等。运维中心各功能模块说明如下:

image..png

下表为运维中心各模块功能使用的简单说明:

功能模块

描述

运维概览

  • 实例统计:统计系统内离线实例和实时实例的运行详情、运行趋势、运行失败实例数排行、失败报警实例数排行等信息,帮助您从项目视角或全局视角,把控实例运行的情况。

  • 异常统计:统计全局或已选项目下运行异常任务的统计信息,包括运行出错和运行总时间过长两个视角,便于您及时获取任务运行的状况,以判断资源的消耗及影响,从而作出预算准备、资源扩容或规格升级的决策。

任务运维

任务运维依照调度时效分为周期任务、实时任务和手动任务。周期任务包括脚本任务、明细及汇总表任务和萃取任务。任务运维模块为您提供周期任务、实时任务和手动任务的运维和管理,包括查看DAG图、查看实例、补数据、批量修改任务的责任人等。

实例运维

实例运维模块依照实例生成方式分为基线实例、周期实例、补数据实例、手动实例和实时实例。实例运维模块为您提供基线实例、周期实例、补数据实例、手动实例和实时实例的运维和管理,包括查看DAG、查看任务、查看运行日志、批量重跑等操作。

监控管理

监控管理提供基线监控、离线任务监控功能。

  • 基线监控:基线运维为您提供基线监控、基线告警、基线实例、高优任务保障的运维和管理。包括查看DAG、批量开启/关闭基线任务监控开关、批量转让基线负责人等操作。基线范围内的任务可设置更高优先级以优先分配资源。

  • 离线、实时任务监控:支持配置任务的多种监控告警规则。监控离线逻辑表任务支持配置字段视角的监控报警。监控配置帮助您及时了解任务运行动态,并监控异常任务,此外,支持针对需要重点保障的任务配置基线监控。

    说明
    • 仅Basic和Prod项目支持配置监控报警。

    • 限流配置和基线运维需单独购买开通后使用。

系统配置

系统配置提供限流配置、运行配置等功能。

  • 限流配置:限流规则配置是当计算引擎出现性能瓶颈、资源分配不足或需控制任务下发时间和顺序等场景时,您可在开发或生产环境配置限流规则,以保障系统的稳定性及控制高优先任务优先分配资源、优先运行,保证数据按序、及时的产出。

  • 运行配置:Dataphin支持租户级的运行配置。您可根据租户类型和业务场景为不同的租户配置运行实例的超时时间和运行任务失败时的重跑策略,杜绝因运行实例长时间资源占用造成资源浪费的同时提高运行实例的可靠性。

任务实例生成逻辑

运维中心任务类型包括周期任务、手动任务和实时任务。触发任务运行的方式包括周期调度和手动触发。系统的周期调度时间包括分钟、小时、日、周、月和年。触发任务运行包括补数据周期任务、手动运行手动任务和启动实时任务的运行。

重要
  • 开发环境的所有任务默认不运行,需要您手动触发任务的运行。

  • 周期任务发布到生产环境后即可开始正常调度。

image..png

  • 周期实例生成逻辑

    当开发调度类型为周期任务的节点被提交或发布至运维中心后,您可以在运维中心的周期任务列表中看到该任务节点。周期任务可生成以下2种实例类型:

    实例类型

    实例生成时间

    实例运行逻辑

    实例运行条件

    周期实例

    周期任务每晚23点会自动生成次日需要运行的周期实例,周期实例方式为T+1次日生成:

    • 23:00之前提交发布的周期任务,次日即生成周期实例。

    • 23:00之后提交发布的周期任务,第三个自然日才会生成实例。

      说明

      修改任务调度资源组仅对新生成的实例生效,对已生成的实例不生效。如果您需要修改实例的调度资源组,请在23点之前修改任务的资源配置并提交发布。特殊的,您还可以单独修改已生成但是未开始运行的实例的调度资源。

    周期任务通过快照方式生成周期实例后,将根据周期任务的调度属性信息自动调度运行。

    周期实例开始运行前需满足以下条件:

    • 依赖的所有父节点实例都为成功运行状态。

    • 已达到实例节点的定时运行时间

    • 调度资源满足实例的运行。

    • 实例和关联的周期任务非暂停状态。周期实例运行状态图如下:

    image

    关于运行状态更多信息,请参见实例运行诊断

    补数据实例

    补数据实例需手动针对当前周期任务进行补数据操作,才可生成补数据实例。

    手动生成补数据实例后,补数据实例将根据所配置的业务日期进行补数据。

    说明

    在生产环境下,您可以通过补数据周期任务,验证开发环境周期任务是否能够正常运行,数据是否能够正常产出。

  • 手动实例生成逻辑

    当开发调度类型为手动业务的节点被提交或发布至运维中心后,您可以在运维中心的手动任务列表中看到该节点,当您需要运行该手动任务时,可以在手动任务列表对该任务执行运行操作,手动触发任务运行后,会产生手动实例,您可以在手动实例页面查看该实例执行详情。

  • 实时实例生成逻辑

    当实时任务被提交或发布至运维中心后,您可以在运维中心的实时任务列表对实时任务进行启动、修改资源配置等相关操作。在Basic模式和Dev-Prod模式的Prod环境下,实时任务提交后将自动生成实时实例,自动生成的实例为未启动的停止状态。实时任务运维分为实时计算任务和实时集成任务。

运维中心入口

快捷入口(推荐)

在Dataphin首页,您也可以单击Dataphin产品使用路径的运维调度,快速进入运维中心。

image

普通入口

  1. 在Dataphin首页,单击顶部菜单栏的研发

  2. 在数据开发页面,单击顶部菜单栏的运维,进入运维中心页面。

    image

上一篇: 管理发布任务 下一篇: 运维中心概述
阿里云首页 智能数据建设与治理 Dataphin 相关技术圈