Hive数据源为您提供读取和写入Hive双向通道的功能,您可以通过向导模式和脚本模式配置同步任务。

标准模式的工作空间支持数据源隔离功能,您可以分别添加开发环境和生产环境的数据源,并进行隔离,以保护您的数据安全。

操作步骤

  1. 以项目管理员身份登录DataWorks控制台,单击相应工作空间后的进入数据集成
  2. 单击左侧导航栏中的数据源,即可跳转至工作空间管理 > 数据源管理页面。
  3. 单击数据源管理页面右上角的新增数据源
  4. 新增数据源对话框中,选择数据源类型为Hive
  5. 配置新增Hive数据源对话框中的参数。
    参数 描述
    数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
    数据源描述 对数据源进行简单描述,不得超过80个字符。
    适用环境 可以选择开发生产环境。
    说明 仅标准模式工作空间会显示该配置。
    Hive JDBC连接串 Hive连接信息,格式为jdbc:hive2://ip:port/;serviceDiscoveryMode=xxx;zooKeeperNamespace=xxx;sasl.qop=xxx;auth=xxx;principal=xxx
    ipport的获取方式如下:
    • ip:Hive服务器的主机名,HiveServer2服务所在的机器。
    • portHiveServer2服务的端口号。
    Hive连接用户名 Hadoop集群的用户名。
    Hive连接用户密码 Hadoop集群的密码。
    元数据库JDBC URL Hive元数据库的JDBC URL。
    元数据库用户名 Hive元数据库的用户名,您可以通过Hive配置项javax.jdo.option.ConnectionUserName获取,详情请参见下文的 在EMR控制台获取Hive配置
    元数据库密码 Hive元数据库的密码,您可以通过Hive配置项javax.jdo.option.ConnectionPassword获取,详情请参见下文的 在EMR控制台获取Hive配置
    Hive连接扩展参数 Hive高级参数配置,例如HA的相关配置,示例如下。
    "hadoopConfig":{
    "dfs.nameservices": "testDfs",
    "dfs.ha.namenodes.testDfs": "namenode1,namenode2",
    "dfs.namenode.rpc-address.youkuDfs.namenode1": "",
    "dfs.namenode.rpc-address.youkuDfs.namenode2": "",
    "dfs.client.failover.proxy.provider.testDfs
    "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
    }
  6. 单击测试连通性
  7. 测试连通性通过后,单击完成

在EMR控制台获取Hive配置

  1. 登录E-MapReduce控制台
  2. 单击顶部菜单栏中的集群管理
  3. 单击相应集群后的详情,进入集群基础信息页面。
  4. 单击左侧导航栏中的集群服务 > Hive,进入Hive的状态页面。
  5. 单击菜单栏中的配置
  6. 配置搜索下输入javax,单击搜索,即可在页面右侧查看服务配置服务配置