创建元数据

在基于HBase、Elasticsearch或MongoDB数据源创建服务单元之前,需要先创建对应数据源中数据表的元数据,以实现通过元数据确定数据源中数据表的结构。后续您可以通过该元数据读取到对应数据源的数据。本文为您介绍如何创建HBase、Elasticsearch和MongoDB数据源中数据表的元数据。

背景信息

HBase、Elasticsearch和MongoDB数据源为非关系型数据源,基于这三种数据源创建服务单元时无法直接读取到数据源的数据,因此在基于HBase、Elasticsearch或MongoDB数据源创建服务单元之前,需要先创建对应数据源中数据表的元数据。

前提条件

在开始执行操作前,请确认您已具有HBase、Elasticsearch或MongoDB数据源的读取权限。

如何申请数据源的读取权限,请参见申请、续期和交还数据源权限

使用限制

  • HBase、Elasticsearch或MongoDB数据源中的一个数据表只能创建一个元数据。

  • 仅支持开发用户、服务项目管理员角色的用户创建元数据。

创建元数据

  1. 在Dataphin首页,单击顶部菜单栏服务 > 开发

  2. 选择服务项目,再单击左侧导航栏的元数据管理,再单击+新建元数据按钮。

    支持基于HBase、Elasticsearch或MongoDB数据源创建元数据。

    创建HBase数据源中数据表的元数据

    1. 新建元数据页面,配置参数。

      参数

      描述

      数据表配置

      物理数据表

      选择HBase 0.9.4/1.1.x/2.x的数据源类型、数据源和需要创建元数据的数据表。

      Rowkey配置

      在读写HBase的数据时,需要通过RowKey字段查询到数据所在的Region及Region下的MemStore和HFile。

      分隔符

      基于业务数据中的分隔符选择对应的分隔符。当只有一个Rowkey字段时,也需要选择分隔符,这时分割符可以任意选一个即可。

      Rowkey字段间的分隔符包括DASH(-)、AMPERSAND(&)、CARET(^)、SEMICOLO(:)、POUND(#)、VERTICAL(|)、UNDERSCORE(_)、ESCAPE_0(\0)、ESCAPE_40(\40)、ESCAPE_001(\001)、ESCAPE_002(\002)、ESCAPE_003(\003)、ESCAPE_004(\004)。

      新建Rowkey字段

      创建Rowkey字段。单击Rowkey配置区域的新建列字段,配置如下参数:

      • Rowkey字段名称:您可以自定义Rowkey字段的名称。命名规则如下:

        • 只能包含字母、数字或下划线(_)。

        • 以字母开头。

        • 不能超过64个字符。

      • 字段类型:根据业务数据的字段类型选择对应的Rowkey字段类型。

      • 支持选择的字段类型包括Double、Float、String、Date、Boolean、Int、Long、Short、Byte、Bigdecimal、Binary。如果业务数据的字段类型不在上述字段类型范围内,推荐您选择String。

      • Rowkey描述:填写对Rowkey字段的简单描述。

      列字段配置

      新建列字段

      • 列簇名称:配置为HBase业务数据源中实际的列簇名称。

      • 列字段名称:配置为HBase业务数据源中实际的列字段名称。

      • 字段类型:根据业务数据的字段类型选择对应的字段类型。

      • 支持选择的字段类型包括Double、Float、String、Date、Boolean、Int、Long、Short、Byte、Bigdecimal、Binary。如果业务数据的字段类型不在上述字段类型范围内,推荐您选择String。

      • 描述:填写对列字段的简单描述。

    2. 单击提交,完成HBase数据源的元数据的创建。

    创建Elasticsearch数据源中数据表的元数据

    1. 新建元数据页面,配置参数。

      参数

      描述

      数据表配置

      物理数据表

      选择Elasticsearch的数据源类型、数据源和需要创建元数据的数据表。

      列字段配置

      新建列字段

      • 字段名称:配置为业务数据中实际的字段名称,且后续需要基于该字段创建服务单元。支持多层嵌套,使用点(.)分隔。

      • 字段类型:根据业务数据的字段类型选择对应的字段类型。

      • 支持选择的字段类型包括Double、Float、String、Date、Boolean、Int、Long、Short、Byte、Bigdecimal、Binary。如果业务数据的字段类型不在上述字段类型范围内,推荐您选择String。

      • 描述:填写对列字段的简单描述。

    2. 单击提交,完成Elasticsearch数据源的元数据的创建。

    创建MongoDB数据源中数据表的元数据

    1. 新建元数据页面,配置参数。

      参数

      描述

      数据表配置

      物理数据表

      选择MongoDB的数据源类型、数据源和需要创建元数据的数据表。

      列字段配置

      新建列字段

      • 字段名称:配置为业务数据中实际的字段名称,且后续需要基于该字段创建服务单元。支持多层嵌套,使用半角句号(.)分割。

      • 字段类型:根据业务数据的字段类型选择对应的字段类型。

      • 支持选择的字段类型包括Double、Float、String、Date、Boolean、Int、Long、Short、Byte、Bigdecimal、Binary。如果业务数据的字段类型不在上述字段类型范围内,推荐您选择String。

      • 描述:填写对列字段的简单描述。

    2. 单击提交,完成MongoDB数据源的元数据的创建。

管理元数据

元数据创建完成后,可在元数据管理页面对元数据执行编辑和删除操作。

image

后续步骤

完成元数据创建后,即可创建服务单元。具体操作,请参见创建物理表服务单元