本文介绍如何使用E-MapReduce Hive关联云HBase的表。云HBase需要借助外部Hive对多表进行关联分析。

说明 后续云HBase将集成Spark,建议使用Spark分析HBase数据。

准备工作

  • 购买按量计费的EMR集群,配置依据实际场景确定,注意云HBase要和EMR处在同一 VPC下,建议不开启高可用。
  • 将EMR所有节点的IP加入到云HBase白名单。

    获取云HBase的Zookeeper访问地址,可在云HBase控制台查看。

    check_hbase
  • 由于云HBase的HDFS端口默认是不开的,需要提交工单开通HDFS端口。

实施步骤

  1. 使用SSH方式登录到集群,具体步骤请参见使用SSH连接主节点
  2. 修改Hive配置。
    • 进入Hive配置目录/etc/ecm/hive-conf/
    • 修改hbase-site.xml,将hbase.zookeeper.quorum的值修改为云HBase的Zookeeper访问连接:
      <property>
                 <name>hbase.zookeeper.quorum</name>
                 <value>hb-bp183x4tu8x7q****-001.hbase.rds.aliyuncs.com,hb-bp1mhyea7754b****-002.hbase.rds.aliyuncs.com,hb-bp1mhyea7754b****-003.hbase.rds.aliyuncs.com</value>
            </property>
  3. Hive中创建云HBase表。
    • 如果HBase表不存在,可在Hive中直接创建云HBase关联表。
      1. 输入hive命令进入Hive cli命令行。
      2. 创建HBase表。
        CREATE TABLE hive_hbase_table(key int, value string) 
        STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
        WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
        TBLPROPERTIES ("hbase.table.name" = "hive_hbase_table", "hbase.mapred.output.outputtable" = "hive_hbase_table");
      3. Hive中向HBase插入数据。
        insert into hive_hbase_table values(212,'bab');
        insert_data
      4. 查看云HBase表,HBase表已创建,数据也已经写入。check_hbase_tablecheck_hbase_info
      5. 在HBase中写入数据。insert_data

        在Hive中查看。

        check_hive
      6. Hive删除表,HBase表也一并删除。delete_table_hive

        查看HBase表,报错不存在表。

        check_hbase_table
    • 如果HBase表已存在,可在Hive中HBase外表进行关联,外部表在删除时不影响HBase已创建表。
      1. 云HBase中创建HBase表,并put测试数据。create_table_hbase
      2. Hive中创建HBase外部关联表,并查看数据。create_table_out
      3. 删除Hive表不影响HBase已存在的表。delete_table_hivedelete_info_hive

总结

Hive更多操作HBase步骤,请参见HBaseIntegration。如果使用ECS自建MR集群的Hive时,操作步骤跟EMR操作类似,需要注意的是自建Hive的hbase-site.xml部分配置项可能与云HBase不一致,简单来说网络和端口开放后,只保留hbase.zookeeper.quorum即可与云HBase进行关联。