HBase数据源为您提供读取和写入HBase双向通道的功能,您可以通过脚本模式配置同步任务。

使用限制

不同网络连通条件下,HBase各版本的数据同步功能支持情况如下:
版本 独享资源组与数据源通过公网连通 独享资源组与数据源通过VPC内网连通
单机版(0.94.x) 支持 支持
标准版(1.1和2.0) 不支持 支持
增强版 支持 支持

操作步骤

  1. 进入数据源管理页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据集成
    4. 在左侧导航栏,单击数据源 > 数据源列表,进入工作空间管理 > 数据源管理页面。
  2. 数据源管理页面,单击右上角的新增数据源
  3. 新增数据源对话框中,选择数据源类型为HBase
  4. 新增HBase数据源对话框中,配置各项参数。
    HBase
    参数 描述
    数据源名称 数据源名称必须以字母、数字、下划线(_)组合,且不能以数字和下划线(_)开头。
    数据源描述 对数据源进行简单描述,不得超过80个字符。
    适用环境 可以选择开发生产环境。
    说明 仅标准模式工作空间会显示该配置。
    配置信息 HBase集群提供给客户端连接的配置信息。

    您可以转换hbase-site.xml为JSON格式,并补充scancachebatch等更多HBase客户端配置,以优化集群与客户端的交互。

    根据使用的HBase版本,您需要配置不同的配置信息:
    说明 当前支持的HBase版本包含单机版(0.94.x)、标准版(1.1和2.0)和增强版。各版本的详细介绍可参见HBase版本选择
    • 如果您使用的是HBase单机版或标准版时,则使用默认的配置信息,您只需要输入对应的ZK信息。
      {
          "hbase.rootdir": "hdfs://localhost:9000/hbase",
          "hbase.zookeeper.quorum": "localhost"
      }
    • 如果您使用的是HBase增强版时,则使用增强版特有的endpoint形式,不再使用zookeeper.quorum参数连接。
      请手动修改HBase增强版(lindorm)数据源的配置信息,示例如下。
      配置信息栏填写:
      {
      
      "hbase.client.connection.impl" : "com.alibaba.hbase.client.AliHBaseUEConnection",
      
      "hbase.client.endpoint" : "host:30020",
      
      "hbase.client.username" : "root",
      
      "hbase.client.password" : "root"
      
      }
  5. 选择资源组连通性类型为数据集成
  6. 在单击资源组列表下,单击相应资源组后的测试连通性
    数据同步时,一个任务只能使用一种资源组。您需要在每种资源组上单独测试连通性,以保证同步任务使用的数据集成资源组能够与数据源连通,否则将无法正常执行数据同步任务。详情请参见选择网络连通方案
    说明
    • 仅支持独享数据集成资源组测试连通性,详情请参见新增和使用独享数据集成资源组
    • 如果您使用的是HBase增强版(lindorm),请忽略测试连通性时出现的找不到AliHBase类的报错。
    • 如果您使用的是HBase单机版(0.94.x),请忽略连通性失败问题,可以先执行数据同步任务。
  7. 测试连通性通过后,单击完成

后续步骤

现在,您已经学习了如何配置HBase数据源,您可以继续下一个教程。在该教程中,您将学习如何配置HBase插件。详情请参见HBase ReaderHBase Writer