配置Hive输入组件读取Hive数据-智能数据建设与治理 Dataphin-阿里云

Hive输入组件用于读取Hive数据源的数据。同步Hive数据源的数据至其他数据源的场景中，您需要先配置Hive输入组件读取的数据源，再配置数据同步的目标数据源。本文为您介绍如何配置Hive输入组件。

使用限制

Hive输入组件支持数据格式为orc、parquet、text、rc、seq、iceberg（iceberg格式仅支持E-MapReduce5.x的Hive计算源或数据源）的Hive数据表。不支持ORC格式的事务表、Kudu表集成。

说明

Kudu表数据集成请使用Impala输入组件。更多信息，请参见配置Impala输入组件。

前提条件

已创建Hive数据源。具体操作，请参见创建Hive数据源。
进行Hive输入组件属性配置的账号，需具备该数据源的同步读权限。如果没有权限，则需要申请数据源权限。具体操作，请参见申请数据源权限。

操作步骤

在Dataphin首页顶部菜单栏，选择研发 > 数据集成。
在集成页面顶部菜单栏选择项目（Dev-Prod模式需要选择环境）。
在左侧导航栏中单击离线集成，在离线集成列表中单击需要开发的离线管道，打开该离线管道的配置页面。
单击页面右上角的组件库，打开组件库面板。
在组件库面板左侧导航栏中需选择输入，在右侧的输入组件列表中找到Hive组件，并拖动该组件至画布。
单击Hive输入组件卡片中的图标，打开Hive输入配置对话框。

在Hive输入配置对话框中，配置参数。

参数	描述
步骤名称	即Hive输入组件的名称。Dataphin自动生成步骤名称，您也可以根据业务场景修改。命名规则如下：只能包含中文、字母、下划线（_）、数字。不能超过64个字符。
数据源	在数据源下拉列表中，展示所有Hive类型的数据源，包括您已拥有同步读权限的数据源和没有同步读权限的数据源。单击图标，可复制当前数据源名称。对于没有同步读权限的数据源，您可以单击数据源后的申请，申请数据源的同步读权限。具体操作，请参见申请数据源权限。如果您还没有Hive类型的数据源，单击新建数据源，创建数据源。具体操作，请参见创建Hive数据源。
表	选择数据同步的来源表。单击图标，可复制当前所选表的名称。说明选择的表为Hudi表或Paimon表时，仅支持配置分区。
分区	支持读取静态分区或范围分区，静态分区如`ds=20230101`或者`ds1=2023,ds2=01`；范围分区如`/query/ds >=20230101 and ds <= 20230107`。说明选择的表为Hudi表或Paimon表时，不支持读取范围分区。
分区不在时	可选择以下策略，处理当指定分区不存在时的场景：置任务失败：终止该任务并置失败。置任务成功，无写入数据：任务正常运行成功，目标表中不写入数据。
文件编码	选择读取文件的存储在Hive的编码方式。文件编码包括UTF-8和GBK。
NULL值替换	仅支持`textfile`数据存储格式的来源表。填写需要替换为`NULL`的字符串。例如，填写`\N`时，系统会将`\N`字符串替换为`NULL`。
压缩格式	非必填项，如果文件有压缩，请选择对应的压缩格式，以便Dataphin进行解压处理。orc表默认选择zlib格式，如需其他解压格式需指定。其他格式表无默认格式。系统支持的压缩格式包括zlib、hadoop-snappy、lz4、none。
字段分隔符	字段分隔符通常是在创建表时指定的。例如，使用`ROW FORMAT DELIMITED FIELDS TERMINATED BY`语句定义。请填写读取表的字段分割符，如果您没有填写分隔符，则Dataphin默认为`\u0001`。
输出字段	输出字段区域展示了已选中表及筛选条件命中的所有字段。如果不需要将某些字段输出至下游组件，则您可以删除对应的字段：说明当计算引擎为Hadoop时，Hadoop输入组件的输出字段支持查看字段的分类分级，非Hadoop计算引擎则不支持。单个删除字段场景：如果需要删除少量的字段，则可以单击操作列下的图标，删除多余的字段。批量删除字段场景：如果需要删除大批量字段，则可以单击字段管理，在字段管理对话框选择多个字段后，单击左移动图标，将已选的输入字段移入到未选的输入字段并单击确定，完成字段的批量删除。

单击确认，完成Hive输入组件的属性配置。