创建及管理群组离线服务任务

Dataphin标签平台提供群组服务能力。可通过数据集成的方式,实现群组的批量导出,满足下游群组分析应用的需求。本文将指导您如何新建群组离线服务。

限制说明

为保障数据的高可用,运行群组离线服务时,系统会将数据写入临时表({目标表}_dpfx_b);写入完成后,将原目标表进行重命名({目标表}_dpfx_tmp),目标表重命名后将临时表重命名为目标表;最后删除原目标表({目标表}_dpfx_tmp)。在重命名原目标表完成后,将临时表重命名为目标表完成前,数据将存在短暂不可用时间。

前提条件

  • 已创建群组离线服务关联的应用。具体操作,请参见新建应用

  • 创建群组离线服务前您需创建对应的实体。具体操作,请参见创建实体

群组离线服务概览

群组离线服务页面主要由功能区、群组离线服务列表组成。您可以在群组离线服务页面对创建的群组离线服务进行相关的管理操作。

image

区块

说明

功能区

  • 只看我的:勾选后系统将自动筛选当前账号所创建的群组离线服务。

  • 搜索:支持通过输入群组离线服务名称来搜索群组离线服务。

  • 筛选:支持根据应用名实体-实体ID目标源类型任务状态执行状态调度类型进行筛选。

    • 应用名:通过群组离线服务所属于的应用进行筛选。

    • 实体-实体ID:通过群组离线服务中导出的群组的实体-实体ID进行筛选。

    • 目标源类型:通过群组离线服务的目标数据源类型进行筛选。

    • 任务状态:通过群组离线服务的任务状态进行筛选。包括编辑中发布中发布失败已发布已下线下线中下线失败未知状态

    • 执行状态:通过群组离线服务的执行状态进行筛选。包括未运行运行中任务出错、运行成功

    • 调度类型:通过群组离线服务的调度类型进行筛选。包括周期调度手动调度

  • 新建群组服务:单击新建群组服务进行创建群组离线服务。具体操作,请参见新建群组离线服务

  • 刷新:单击可刷新当前群组离线服务列表。

群组离线服务列表

群组离线服务页面以列表形式为您展示创建的群组离线服务,包括任务名负责人应用名群组名实体实体ID任务状态执行状态目标源类型目标表调度类型创建时间以及支持的操作。群组离线服务支持的管理操作详情如下:

说明

鼠标悬停至目标表,支持查看目标表的全称和目标数据源名称。若目标数据源类型为openGauss,还支持查看目标表Schema。

  • 编辑:对于编辑中发布失败已发布已下线状态的群组离线服务,可以单击image.png进行编辑后重新发布。

  • 详情:单击image.png可以查看当前群组离线服务详情信息。

  • 查看实例:单击image.png可以查看当前群组离线服务生成的执行实例。

  • 下线:对于已发布状态的群组离线服务,单击image.png可下线当前的标签离线服务。

  • 删除:对于已下线、发布失败状态的群组离线服务,单击image..png可以删除当前群组离线服务。

  • 运行:对于调度类型为手动调度的任务,可以单击image.png并在运行对话框中选择业务日期手动运行。

  • 补数据:对于运行中状态的标签离线服务,可以单击image补数据图标进行补数据,默认补业务日期为昨天(T-1)的数据。

新建群组离线服务

  1. 在Dataphin首页的顶部菜单栏中,选择标签 > 标签应用

  2. 在左侧导航栏中选择服务管理 > 群组离线服务

  3. 群组离线服务页面,单击新建离线服务

  4. 新建离线服务配置页面中,配置以下参数。

    参数

    描述

    基本信息

    任务名

    填写任务名称。命名规则如下:

    允许中文、英文、数字、下划线(_), 64个字符以内。

    应用选择

    选择已关联项目的应用。

    负责人

    选择该群组离线服务的负责人。

    调度类型

    支持周期调度和手动调度任务类型。

    • 手动调度:一次集成,任务发布后可在任务列表页选择手动执行。

    • 周期调度:调度执行,根据配置周期调度执行。

    描述

    填写任务的简单描述信息,1000个字符以内。

    字段映射

    群组选择

    选择您需配置的群组。

    是否需要同步标签

    默认为,仅同步群组的实体ID;若选择,则可以在输入标签中选择需要同步的标签。

    目标数据源

    选择群组服务对应的目标数据源。目标数据源可以为在Dataphin创建的MySQLOracleAnalyticDB for PostgreSQLGreenplum、openGauss数据源和项目

    说明

    项目的目标数据源仅支持当前账号加入的项目(通用标签项目)且项目生产账号具有同步写权限。

    若无所需数据源,您可以单击+新建数据源进行创建。具体操作,请参见数据源管理概述

    Schema

    目标数据源类型为openGaussAnalyticDB for PostgreSQL、Greenplum时,支持选择数据源的Schema。

    目标表

    选择目标数据源中的目标表。openGaussAnalyticDB for PostgreSQL、Greenplum数据源类型为Schema下的目标表。

    • 跨项目安全模式开启,不支持跨项目建表。更多信息,请参见安全设置

    • 若没有当前目标表生产环境的写表数据权限,您可以单击申请权限进行权限申请。更多信息,请参见申请、续期和交还表权限

    • 若无对应目标表,选择输入标签后,可以单击image.png创建所需的目标表。如下图所示:

      image

    • 在系统生成的建表语句中,请确认表名、字段类型、精度等是否符合需求后再单击新建

    • 表名和表备注都均由系统自动生成,可以按需要进行修改。

    • 系统生成的建表语句参考输入标签的类型并进行了初步的转换,可以按需修改。

    • 目标数据源为项目时,系统将默认生成分区表,建议不做调整。

    • 目标数据源类型为AnalyticDB for PostgreSQL时,不支持选择分区表。

    • 选择输入标签后,可以配置导出的标签的代码值和代码名称。可以单独导出标签值或代码名称,也可以全部导出,但至少要导出一个。

      说明

      目前行为偏好类标签暂不支持导出。

    • 一键建表时,若标签已配置码表,可选择代码名称导出。导出代码名称为{标签code}_codename。一键建表后,系统将自动映射字段。

    日期分区

    选择目标表的分区字段。

    • 若所选目标表为分区表,则系统将默认该表的第一个分区字段。

    • 若所选目标表为非分区表,则无需选择日期分区。

    分区字段格式

    输入日期格式,或选择已有的日期格式。可选择yyyyMMddyyyy-MM-ddyyyy/MM/ddyyyy.MM.dd

    说明

    仅当计算引擎为MaxCompute时,分区字段格式可选择为yyyymmddyyyy-mm-ddyyyy/mm/ddyyyy.mm.dd

    加载策略

    加载策略仅支持覆盖策略;在覆盖数据策略下,当主键/约束冲突时,会先删除原数据,再插入整行新数据。

    映射字段

    不需要同步标签时,选择需要映射的字段。

    运维配置

    调度周期

    在特定时间范围内进行任务调度的周期。支持按日调度。群组离线任务将按照配置的调度时间进行按日调度运行。

  5. 单击发布,即可完成群组离线服务任务的创建。