全部产品
云市场

使用DataX导入数据

更新时间:2019-07-24 12:30:31

适用场景

云HBase提供BDS服务能够支持各种HBase版本之间相互迁移和实时同步,并且支持从DTS订阅RDS增强数据同步到HBase。如果您有这方面的需求,请移步BDS介绍。如果您需要从BDS暂不支持的异构数据源导入数据,如从MaxCompute(原ODPS)导入数据到云HBase,则需要使用到DataX这个产品。DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

使用步骤

下载DataX安装包

点击此处直接下载集成了访问HBase增强版所需jar包的DataX安装包。下载完成后解压DataX的tar包。

如果是已有的DataX版本,或者从GitHub地址下载最新版本的安装包,则需要加入所需的jar包,加入方法如下:

JAVA SDK安装中的下载压缩包章节下载1.x版本的alihbase-connector-1.x jar文件,注意只需要alihbase-connector-1.x jar这一个jar文件即可(1.x代表版本号,具体数字为最新的版本号),无需整个压缩包。把下载好的jar包放入datax/plugin/writer/hbase11xwriter/libs目录中。如果需要用DataX读取HBase增强版的数据,则需将此jar包也放入datax/plugin/reader/hbase11xreader/libs目录中。

编辑配置文件

在DataX中,读取HBase增强版的插件为hbase11xreader,此插件的具体配置可参见hbase11xreader的帮助文档。写入HBase增强版的插件为hbase11xwriter,此插件的具体配置可参见hbase11xwriter的帮助文档。读写HBase增强版的配置与官方的配置除了hbaseconfig部分,其他部分完全一致。hbaseconfig部分不再使用Zookeeper.quorum这个参数连接,而是使用增强版特有的endpoint形式,配置示例如下:

  1. ...
  2. "hbaseConfig": {
  3. "hbase.client.connection.impl" : "com.alibaba.hbase.client.AliHBaseUEConnection",
  4. "hbase.client.endpoint" : "host:30020",
  5. "hbase.client.username" : "root",
  6. "hbase.client.password" : "root"
  7. }
  8. ...

其中hbase.client.connection.impl为固定配置,用户将其设置为“com.alibaba.hbase.client.AliHBaseUEConnection”即可启用增强版的Connection。hbase.client.endpoint即用户控制台上提供的Java API访问地址,用户可以参考连接集群获得。hbase.client.username和password为HBase增强版中用户自己创建的用户名和密码(默认均为root),用户必须保证提供 的用户有读写HBase增强版中表的权限(默认提供的root用户已经具有读写所有表的权限)。关于用户和ACL,用户可以参考连接集群章节。

启动DataX开始迁移数据

DataX的具体使用方式大家可以参考官方文档

注意事项:

迁移开始前,请仔细阅读连接集群章节,根据DataX所部署的ECS需要添加白名单,才能正确访问HBase增强版。同时,如果ECS与HBase增强版不在一个VPC内,则需要使用公网地址访问。