数据导入方式

DataWorks是阿里云推出的全链路大数据开发治理平台,融合了数据集成、数据开发、数据运维等多种功能。Lindorm宽表引擎支持通过DataWorks配置导入任务,将MySQL、PolarDB、PostgreSQL、Oracle、SQL Server和Cassandra中的数据全量导入至Lindorm宽表引擎中。本文介绍如何通过DataWorks配置Lindorm导入任务。

前提条件

已将客户端IP添加至Lindorm白名单。如何添加,请参见设置白名单

注意事项

  • 如果您想要通过公网访问或您的实例类型为Lindorm单节点,在执行本文操作前,需要先升级SDK并更改配置。具体操作,请参见通过HBase Java API连接并使用宽表引擎章节中的步骤1。

  • 如果应用部署在ECS实例,通过专有网络访问Lindorm实例前,需要确保Lindorm实例和ECS实例满足以下条件,以保证网络的连通性。

    • 所在地域相同,并建议所在可用区相同(以减少网络延时)。

    • ECS实例与Lindorm实例属于同一专有网络。

步骤一:创建工作空间

在配置导入任务前,您需要先在DataWorks中创建工作空间,用于后续数据开发和任务管理。如何创建,请参见创建工作空间

步骤二:创建资源组

资源组(Resource Group)能够帮助您合理分配账号内的资源,管理用户的授权。

可创建的资源组如下表所示:

资源组类型

配置文档

注意事项

独享资源组

独享资源组模式

独享资源不支持跨地域使用。例如,华东2(上海)地域的独享资源,只能给华东2(上海)地域的工作空间使用(无法绑定其他区域的VPC),并且独享资源组不能夸Vswtich访问Lindorm集群。

默认资源组

公网访问Lindorm会在DataWorks产生额外费用。

步骤三:网络配置

在配置导入任务前,您需要根据资源组的类型进行网络配置,以保证DataWorks和Lindorm实例的连通性。

独享资源组

  1. 在Lindorm实例的实例详情页面,获取Lindorm实例的专有网络(VPC)。image.png

  2. 将DataWorks独享资源组与Lindorm实例的专有网络绑定,如何绑定,请参见网络设置

  3. 专有网络控制台中,获取DataWorks独立资源组绑定的专有网络和专有网络交换机的IPv4网段。image.png

  4. 将获取的IPv4网段添加至Lindorm白名单。如何添加,请参见设置白名单

默认资源组

默认资源组机器的IP地址获取方式,请参见添加白名单。请将区域对应的IP地址添加至Lindorm白名单,具体操作请参见设置白名单

步骤四:创建同步任务

创建数据导入离线同步任务,如何操作,请参见通过脚本模式配置离线同步任务

步骤五:修改任务配置

重要

脚本Demo中的lindorm.client.seedserver参数为Lindorm宽表引擎的HBase Java API兼容地址,如何获取,请参见查看宽表引擎连接地址

步骤六:提交并发布任务

若任务需要进行周期性调度运行,您需要将任务发布至生产环境。关于任务发布的相关说明,请参见发布任务