创建和查看DataWorks导入任务

使用迁移助手进行任务迁移时,需先将目标迁移对象(例如,周期任务、表)通过DataWorks导出功能导出,再通过DataWorks导入功能导入至相应工作空间中,完成任务的迁移。本文为您介绍如何创建DataWorks导入任务。

使用限制

  • 当前不同版本的DataWorks迁移助手在进行DataWorks迁移时,支持的策略如下表。

    DataWorks迁移功能描述

    基础版

    标准版

    专业版

    企业版

    租户内支持的DataWorks导出包个数

    说明

    若导出包个数超过版本限制,您只能通过升级版本获取更多导出包数量,不支持付费购买导出包个数。

    累计10个

    累计30个

    累计100个

    无上限

    DataWorks导入包大小限制

    100M

    300M

    无上限

    无上限

    DataWorks导入时是否支持自动提交、自动发布

    不支持

    不支持

    支持

    支持

  • 仅主账号和工作空间管理员能够进行导入和导出操作,其他角色成员仅支持查看导入、导出任务列表,无操作权限。

  • 进行数据质量规则导出与导入时,有以下注意事项:

    • 导出数据质量规则时,订阅管理(报警相关配置)不支持导出。

    • 导入的数据质量规则关联的表如果在目标空间不存在,则在数据质量规则页面上不会展示出这条导入的规则,如果在导入数据质量规则后完成目标表创建,那同样会在表的规则详情页展示出这条导入的规则。

    • 数据质量导入步骤会依赖周期任务导入步骤成功才会执行,因为同一个导入包里面如果同时有数据质量规则和关联的调度节点信息,您需要先把关联的节点先导入目标空间且成功提交发布了,才能将调度节点和正确的质量规则关联上。

    • 如果只单独导入数据质量,不导入关联的调度节点,那数据质量依然会导入成功,只是没有关联调度节点的信息。后续把关联调度节点信息导入提交发布后,重新导入数据质量规则后,DataWorks会重新更新数据质量规则并关联上调度节点。

前提条件

创建DataWorks导入任务前,需先完成如下准备工作:

  1. 已创建导出任务。

    您需通过DataWorks迁移助手创建导出任务,导出待迁移对象(例如,周期任务、表),详情请参见创建和查看DataWorks导出任务

  2. 准备待导入文件。

    DataWorks支持通过本地或阿里云对象存储OSS上传待导入文件,您需根据选择的上传方式准备好相应文件,操作如下:

    • 本地上传:将上一步生成的任务导出包下载至本地。详情请参见下载导出包

    • OSS上传:将上一步生成的任务导出包下载至本地,并存储至OSS。详情请参见简单上传

进入迁移助手

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 单击左上方的图标图标,选择全部产品 > 更多 > 迁移助手,进入迁移助手首页

创建导入任务

  1. 在迁移助手的左侧导航栏,单击DataWorks迁移 > DataWorks导入

  2. 在导入任务列表页面,单击右上方的新建导入任务

  3. 新建导入任务对话框中,配置各项参数。

    新建导入任务

    参数

    描述

    导入名称

    导入名称仅支持大小写字母、中文、数字、下划线(_)和小数点(.)。

    上传方式

    可选择通过本地或OSS上传待导入文件。具体如下:

    • 本地上传:单击上传文件,按照界面指引上传并校验本地文件。

      说明

      最大支持上传30MB的本地文件。

    • OSS文件:输入OSS链接并进行校验。您可登录OSS控制台,按如下步骤获取相应文件的URL链接。image

    当显示资源包校验成功后,您可单击文件预览,查看待导入的文件详情。

    备注

    对导入任务进行简单描述。

  4. 单击确认,进入导入任务设置页面。

    导入任务前,您需要校验导入文件的格式和内容。通过校验后,才可以单击确认

  5. 配置导入任务。

    配置导入任务时,必须配置引擎实例映射(下图以MaxCompute计算引擎示例)。其它配置为可选操作,您可以根据业务需求设置。 导入

    说明

    如果是同租户、同地域下不同工作空间的互导,您只需要设置引擎实例映射。

    1. 引擎实例映射区域,设置源工作空间和目标工作空间的数据源映射关系。

      目标工作空间计算引擎实例显示的是目标工作空间中数据开发绑定的数据源的显示名称,而不是创建该数据源所用的项目名称。您可以前往数据开发,单击左侧导航栏中的数据源,查看相应数据源的显示名称。

      如下示例为MaxCompute数据源的显示名称。引擎显示名称。

      如果源工作空间的数据开发中绑定了多种类型的数据源,目标工作空间仅绑定了一种类型的数据源,则目标工作空间会因为没有其它类型节点的创建权限,导致导入任务失败。

    2. 可选:资源组映射区域,修改源工作空间和目标工作空间的资源组映射关系,避免出现运行任务时无法找到资源组的情况。

    3. 可选:依赖映射区域,为相关节点设置项目映射。

      导入任务时,若任务中使用了源工作空间名称(例如,任务代码、本节点输入名称、本节点输出名称中包含源工作空间名称),您可通过修改新项目名,将相关名称快速替换为使用新的工作空间名称,以保障任务导入后,依赖关系正确。

    4. 可选:空跑属性区域,单击相应节点后的设置空跑

      您也可以选中多个需要空跑的节点,单击批量设置空跑

      该配置项用于为周期任务设置调度参数中的时间属性。设置空跑后,节点会直接运行成功,不会生成数据。

    5. 可选:提交规则区域,您可以设置资源函数的提交规则,并可以修改责任人

      说明
      • 如果目标工作空间已存在同名的对象,会出现提交失败的情况。

      • 如果您选择不修改责任人,且源任务无责任人,则会设置提交人为任务的责任人。

  6. 单击右上方的开始导入

  7. 请确认对话框中,单击确认

查看导入任务

导入任务列表页面,不同状态的任务会显示不同的操作:

  • 待任务导入成功后,您可以在导入任务列表页面,单击相应任务后的查看导入报告,查看导入任务的基本信息导入结果明细导入设置导入报告

  • 如果是编辑中的任务,您可以进行以下操作:

    • 单击相应任务后的继续编辑,在导入任务设置页面修改任务的配置。

    • 单击相应任务后的预览,查看导入文件的基本信息概览明细

    • 单击相应任务后的删除,在提示框中单击确认,删除该导入任务。

  • 如果是导入失败的任务,您可以单击相应任务后的重新导入。在导入进度对话框中,确认导入完成后,请单击返回导入任务列表