Dataphin标签平台提供群组服务能力。可通过数据集成的方式,实现群组的批量导出,满足下游群组分析应用的需求。本文将指导您如何新建群组离线服务。
限制说明
为保障数据的高可用,运行群组离线服务时,系统会将数据写入临时表({目标表}_dpfx_b
);写入完成后,将原目标表进行重命名({目标表}_dpfx_tmp
),目标表重命名后将临时表重命名为目标表;最后删除原目标表({目标表}_dpfx_tmp
)。在重命名原目标表完成后,将临时表重命名为目标表完成前,数据将存在短暂不可用时间。
前提条件
群组离线服务概览
群组离线服务页面主要由功能区、群组离线服务列表组成。您可以在群组离线服务页面对创建的群组离线服务进行相关的管理操作。
区域 | 说明 |
①功能区 |
|
②群组离线服务列表 | 群组离线服务页面以列表形式为您展示创建的群组离线服务,包括任务名、负责人、应用名、群组名、实体、实体ID、任务状态、执行状态、目标源类型、目标表、调度类型、创建时间以及支持的操作。群组离线服务支持的管理操作详情如下: 说明 鼠标悬停至目标表,支持查看目标表的全称和目标数据源名称。若目标数据源类型为openGauss,还支持查看目标表Schema。
|
新建群组离线服务
在Dataphin首页,单击顶部菜单栏的标签->标签应用。
按照以下操作指引,进入新建离线服务页面。
依次单击群组离线服务->新建离线服务。
在新建离线服务配置页面中,配置参数。
参数
说明
任务名
填写任务名称。命名规则如下:
允许中英文、数字、下划线(_), 64个字符以内。
应用选择
选择已关联项目的应用。
负责人
选择该群组离线服务的负责人。
调度类型
支持周期调度和手动调度任务类型。
手动调度:一次集成,任务发布后可在任务列表页选择手动执行。
周期调度:调度执行,根据配置周期调度执行。
描述
填写任务的简单描述信息,1000个字符以内。
字段映射
群组选择
选择您需配置的群组。
是否需要同步标签
默认为否,仅同步群组的实体ID;若选择是,则可以在输入标签中选择需要同步的标签。
目标数据源
选择群组服务对应的目标数据源。目标数据源可以为在Dataphin创建的MySQL、Oracle、AnalyticDB for PostgreSQL、Greenplum、openGauss数据源和项目。
说明项目的目标数据源仅支持当前账号加入的项目(通用与标签项目)且项目生产账号具有同步写权限。
若无所需数据源,您可以单击+新建数据源进行创建。具体操作,请参见数据源管理概述。
Schema
目标数据源类型为openGauss、AnalyticDB for PostgreSQL、Greenplum时,支持选择数据源的Schema。
目标表
选择目标数据源中的目标表。openGauss、AnalyticDB for PostgreSQL、Greenplum数据源类型为Schema下的目标表。
跨项目安全模式开启,不支持跨项目建表。更多信息,请参见安全设置。
若没有当前目标表生产环境的写表数据权限,您可以单击申请权限进行权限申请。更多信息,请参见申请、续期和交还表权限。
若无对应目标表,选择输入标签后,可以单击创建所需的目标表。如下图所示:
在系统生成的建表语句中,请确认表名、字段类型、精度等是否符合需求后再单击新建。
表名和表备注都均由系统自动生成,可以按需要进行修改。
系统生成的建表语句参考输入标签的类型并进行了初步的转换,可以按需修改。
目标数据源为项目时,系统将默认生成分区表,建议不做调整。
目标数据源类型为AnalyticDB for PostgreSQL时,不支持选择分区表。
选择输入标签后,可以配置导出的标签的代码值和代码名称。可以单独导出标签值或代码名称,也可以全部导出,但至少要导出一个。
说明目前行为偏好类标签暂不支持导出。
一键建表时,若标签已配置码表,可选择代码名称导出。导出代码名称为
{标签code}_codename
。一键建表后,系统将自动映射字段。
加载策略
加载策略仅支持覆盖策略;在覆盖数据策略下,当主键/约束冲突时,会先删除原数据,再插入整行新数据。
映射字段
不需要同步标签时,选择需要映射的字段。
运维配置
调度周期
在特定时间范围内进行任务调度的周期。支持按日调度。群组离线任务将按照配置的调度时间进行按日调度运行。
单击发布,即可完成群组离线服务任务的创建。