Hive Reader插件实现了从Hive读取数据的功能,本文为您介绍Hive Reader的工作原理、参数和示例。

背景信息

Hive是基于Hadoop的数据仓库工具,用于解决海量结构化日志的数据统计。Hive可以将结构化的数据文件映射为一张表,并提供SQL查询功能。
注意 Hive Reader仅支持使用独享数据集成资源组,不支持使用公共资源组自定义资源组。Hive Reader支持的版本请参见下文的版本支持汇总
Hive的本质是转化HQL或SQL语句为MapReduce程序:
  • Hive处理的数据存储在HDFS中。
  • Hive分析数据底层的实现是MapReduce。
  • Hive的执行程序运行在Yarn上。

实现原理

Hive Reader插件通过访问Hive元数据库,解析出您配置的数据表的HDFS文件存储路径、文件格式、分隔符等信息后,再通过读取HDFS文件的方式读取Hive中的表数据。

Hive Reader插件通过访问HiveMetastore服务,获取您配置的数据表的元数据信息。您可以基于HDFS文件和Hive JDBC读取数据:
  • 基于HDFS文件读取数据

    Hive Reader插件通过访问HiveMetastore服务,解析出您配置的数据表的HDFS文件存储路径、文件格式、分隔符等信息后,再通过读取HDFS文件的方式读取Hive中的表数据。

    Hive Reader底层的逻辑和HDFS Reader插件一致,读取数据后,再通过Hive JDBC导入文件中的数据至目标表中。您可以在Hive Reader插件参数中配置HDFS Reader相关的参数,配置的参数会透传给HDFS Reader插件。

  • 基于Hive JDBC读取数据

    Hive Reader插件通过Hive JDBC客户端连接HiveServier2服务读取数据。Hive Reader支持通过where条件过滤数据,并支持直接通过SQL读取数据。

参数说明

参数 描述 是否必选 默认值
datasource 数据源名称,必须与添加的数据源名称保持一致。
table 表名,用于指定需要同步的表。
说明 请注意大小写。
readMode 读取方式:
  • 基于HDFS文件方式读取数据,配置为"readMode":"hdfs"
  • 基于Hive JDBC方式读取数据,配置为"readMode":"jdbc"
partition Hive表的分区信息:
  • 如果您基于Hive JDBC读取数据,无需配置该参数。
  • 如果您读取的Hive表是分区表,您需要配置partition信息。同步任务会读取partition对应的分区数据。

    Hive Reader支持使用星号(*)作为通配符,格式为pt1=a,pt2=b,...

  • 如果您的Hive表是非分区表,则无需配置partition
column 需要读取的字段列,例如"column": ["id", "name"]
  • 支持列裁剪:即可以导出部分列。
  • 支持列换序,即可以不根据表Schema信息顺序导出列。
  • 支持配置分区列。
  • 支持配置常量。
  • column必须显示指定同步的列集合,不允许为空。
querySql 当您基于Hive JDBC方式读取数据时,可以直接配置querySql读取数据。
where 当您基于Hive JDBC方式读取数据时,可以通过设置where条件过滤数据。

向导开发介绍

数据开发页面,双击打开新建的数据同步节点,即可在右侧的编辑页面配置任务。详情请参见通过向导模式配置任务

您需要在数据同步任务的编辑页面进行以下配置:
  1. 选择数据源。
    配置同步任务的数据来源数据去向选择数据源
    参数 描述
    数据源 即上述参数说明中的datasource,通常选择您配置的数据源名称。
    即上述参数说明中的table
    读取Hive方法 即上述参数说明中的readMode,包括基于HDFS文件读取数据基于Hive JDBC读取数据
    分区信息 即上述参数说明中的partition
    说明 仅选择读取Hive方法基于HDFS文件读取数据时,会显示该配置。
    数据过滤 您将要同步数据的筛选条件,暂时不支持limit关键字过滤。SQL语法与选择的数据源一致。
    说明 仅选择读取Hive方法基于Hive JDBC读取数据时,会显示该配置。
    数据查询querySql 即上述参数说明中的querySql
    说明 仅选择读取Hive方法基于Hive JDBC读取数据时,会显示该配置。
  2. 字段映射,即上述参数说明中的column
    左侧的源头表字段和右侧的目标表字段为一一对应关系。单击添加一行可以增加单个字段,鼠标放至需要删除的字段上,即可单击删除图标进行删除 。字段映射
    参数 描述
    同名映射 单击同名映射,可以根据名称建立相应的映射关系,请注意匹配数据类型。
    同行映射 单击同行映射,可以在同行建立相应的映射关系,请注意匹配数据类型。
    取消映射 单击取消映射,可以取消建立的映射关系。
    自动排版 可以根据相应的规律自动排版。
    手动编辑源表字段 请手动编辑字段,一行表示一个字段,首尾空行会被采用,其他空行会被忽略。
    添加一行 单击添加一行,您可以输入以下类型的字段:
    • 可以输入常量,输入的值需要使用英文单引号,如'abc’'123’等。
    • 可以配合调度参数使用,例如${bizdate}等。
    • 可以输入关系数据库支持的函数,例如now()count(1)等。
    • 如果您输入的值无法解析,则类型显示为未识别。
    • 可以输入分区列名,以同步分区列。
  3. 通道控制。通道控制
    参数 描述
    任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
    同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
    错误记录数 错误记录数,表示脏数据的最大容忍条数。

脚本开发介绍

使用脚本开发的详情请参见通过脚本模式配置任务
说明 实际运行时,请删除下述代码中的注释。
您可以基于HDFS文件和Hive JDBC读取数据:
  • 基于HDFS文件读取数据
    {
        "type": "job",
        "steps": [
            {
                "stepType": "hive",
                "parameter": {
                    "partition": "pt1=a,pt2=b,pt3=c", //分区信息
                    "datasource": "hive_not_ha_****", //数据源名称
                    "column": [ //需要读取的字段列
                        "id",
                        "pt2",
                        "pt1"
                    ],
                    "readMode": "hdfs", //读取方式
                    "table": "part_table_1"
                },
                "name": "Reader",
                "category": "reader"
            },
            {
                "stepType": "hive",
                "parameter": {
                },
                "name": "Writer",
                "category": "writer"
            }
        ],
        "version": "2.0",
        "order": {
            "hops": [
                {
                    "from": "Reader",
                    "to": "Writer"
                }
            ]
        },
        "setting": {
            "errorLimit": {
                "record": "" //错误记录数
            },
            "speed": {
                "concurrent": 2, //作业并发数
                "throttle": false 
            }
        }
    }
  • 基于Hive JDBC读取数据
    {
        "type": "job",
        "steps": [
            {
                "stepType": "hive",
                "parameter": {
                    "querySql": "select id,name,age from part_table_1 where pt2='B'",
                    "datasource": "hive_not_ha_****",  //数据源名称
                    "column": [ //需要读取的字段列
                        "id",
                        "name",
                        "age"
                    ],
                    "where": "",
                    "table": "part_table_1",
                    "readMode": "jdbc" //读取方式
                },
                "name": "Reader",
                "category": "reader"
            },
            {
                "stepType": "hive",
                "parameter": {
                },
                "name": "Writer",
                "category": "writer"
            }
        ],
        "version": "2.0",
        "order": {
            "hops": [
                {
                    "from": "Reader",
                    "to": "Writer"
                }
            ]
        },
        "setting": {
            "errorLimit": {
                "record": ""
            },
            "speed": {
                "throttle": false,
                "concurrent": 2  //作业并发数
            }
        }
    }

配置数据集成资源组

单击数据同步任务编辑页面右侧的数据集成资源组配置,配置任务运行的机器。Hive数据源仅支持使用独享资源组和自定义资源组进行同步任务,详情请参见DataWorks独享资源新增自定义数据集成资源组数据集成资源组

版本支持汇总

Hive Reader支持的版本如下。
0.8.0
0.8.1
0.9.0
0.10.0
0.11.0
0.12.0
0.13.0
0.13.1
0.14.0
1.0.0
1.0.1
1.1.0
1.1.1
1.2.0
1.2.1
1.2.2
2.0.0
2.0.1
2.1.0
2.1.1
2.2.0
2.3.0
2.3.1
2.3.2
2.3.3
2.3.4
2.3.5
2.3.6
2.3.7
3.0.0
3.1.0
3.1.1
3.1.2
0.8.1-cdh4.0.0
0.8.1-cdh4.0.1
0.9.0-cdh4.1.0
0.9.0-cdh4.1.1
0.9.0-cdh4.1.2
0.9.0-cdh4.1.3
0.9.0-cdh4.1.4
0.9.0-cdh4.1.5
0.10.0-cdh4.2.0
0.10.0-cdh4.2.1
0.10.0-cdh4.2.2
0.10.0-cdh4.3.0
0.10.0-cdh4.3.1
0.10.0-cdh4.3.2
0.10.0-cdh4.4.0
0.10.0-cdh4.5.0
0.10.0-cdh4.5.0.1
0.10.0-cdh4.5.0.2
0.10.0-cdh4.6.0
0.10.0-cdh4.7.0
0.10.0-cdh4.7.1
0.12.0-cdh5.0.0
0.12.0-cdh5.0.1
0.12.0-cdh5.0.2
0.12.0-cdh5.0.3
0.12.0-cdh5.0.4
0.12.0-cdh5.0.5
0.12.0-cdh5.0.6
0.12.0-cdh5.1.0
0.12.0-cdh5.1.2
0.12.0-cdh5.1.3
0.12.0-cdh5.1.4
0.12.0-cdh5.1.5
0.13.1-cdh5.2.0
0.13.1-cdh5.2.1
0.13.1-cdh5.2.2
0.13.1-cdh5.2.3
0.13.1-cdh5.2.4
0.13.1-cdh5.2.5
0.13.1-cdh5.2.6
0.13.1-cdh5.3.0
0.13.1-cdh5.3.1
0.13.1-cdh5.3.2
0.13.1-cdh5.3.3
0.13.1-cdh5.3.4
0.13.1-cdh5.3.5
0.13.1-cdh5.3.6
0.13.1-cdh5.3.8
0.13.1-cdh5.3.9
0.13.1-cdh5.3.10
1.1.0-cdh5.3.6
1.1.0-cdh5.4.0
1.1.0-cdh5.4.1
1.1.0-cdh5.4.2
1.1.0-cdh5.4.3
1.1.0-cdh5.4.4
1.1.0-cdh5.4.5
1.1.0-cdh5.4.7
1.1.0-cdh5.4.8
1.1.0-cdh5.4.9
1.1.0-cdh5.4.10
1.1.0-cdh5.4.11
1.1.0-cdh5.5.0
1.1.0-cdh5.5.1
1.1.0-cdh5.5.2
1.1.0-cdh5.5.4
1.1.0-cdh5.5.5
1.1.0-cdh5.5.6
1.1.0-cdh5.6.0
1.1.0-cdh5.6.1
1.1.0-cdh5.7.0
1.1.0-cdh5.7.1
1.1.0-cdh5.7.2
1.1.0-cdh5.7.3
1.1.0-cdh5.7.4
1.1.0-cdh5.7.5
1.1.0-cdh5.7.6
1.1.0-cdh5.8.0
1.1.0-cdh5.8.2
1.1.0-cdh5.8.3
1.1.0-cdh5.8.4
1.1.0-cdh5.8.5
1.1.0-cdh5.9.0
1.1.0-cdh5.9.1
1.1.0-cdh5.9.2
1.1.0-cdh5.9.3
1.1.0-cdh5.10.0
1.1.0-cdh5.10.1
1.1.0-cdh5.10.2
1.1.0-cdh5.11.0
1.1.0-cdh5.11.1
1.1.0-cdh5.11.2
1.1.0-cdh5.12.0
1.1.0-cdh5.12.1
1.1.0-cdh5.12.2
1.1.0-cdh5.13.0
1.1.0-cdh5.13.1
1.1.0-cdh5.13.2
1.1.0-cdh5.13.3
1.1.0-cdh5.14.0
1.1.0-cdh5.14.2
1.1.0-cdh5.14.4
1.1.0-cdh5.15.0
1.1.0-cdh5.16.0
1.1.0-cdh5.16.2
1.1.0-cdh5.16.99
2.1.1-cdh6.1.1
2.1.1-cdh6.2.0
2.1.1-cdh6.2.1
2.1.1-cdh6.3.0
2.1.1-cdh6.3.1
2.1.1-cdh6.3.2
2.1.1-cdh6.3.3