通过HBase创建实时数据集

Dataphin标签支持通过计算脚本方式对HBase数据源表字段进行解析,定义数据集指标。本文将指导您如何通过HBase数据源创建和配置实时数据集。

前提条件

  • 创建实时数据集前请先创建数据集所归属的标签项目。具体操作,请参见创建标签项目

  • 通过HBase创建实时数据集请前先创建用于实时数据集的HBase数据源。具体操作,请参见创建HBase数据源

操作步骤

  1. 在Dataphin首页,单击顶部菜单栏的标签->标签工作台

  2. 按照以下操作指引,进入新增实时数据集对话框。

    选择标签项目->单击实时数据集->单击新增数据集

    image

  3. 新增实时数据集对话框中单击选择HBase数据集

    image

  4. 新增HBase配置页面,配置数据集的基本信息及加工逻辑。

  • 基本信息

  • 参数

    描述

    数据集名称

    填写数据集的名称信息。支持中英文、数字、下划线(_),64个字符以内。

    数据集code

    实时数据集的唯一标识。在存在相同实时数据集名称时,可帮助您定位具体实时数据集。必须以字母开头,允许小写英文字母、数字、下划线(_),64个字符以内。

    负责人

    请选择该实时数据集的负责人。

    描述

    填写实时数据集的简单描述,1000个字符以内。

  • 加工逻辑

  • 参数

    描述

    数据源

    选择所需加工的HBase数据源。若无可选HBase数据源,需要进行创建。具体操作,请参见创建HBase数据源

    来源表

    选择HBase数据源中所需加工的来源表。

    RowKey配置规则

    配置RowKey规则。

    RowKey表达式支持函数与变量:

    • 变量:使用${}包裹。示例,${variable}

    • 字符串常量:使用""包裹。示例,"hello word"

    • 函数md5() 参数为字符串。示例,md5("hello word")或者如md5({user_id})

    • 表达式+连接多个字符串。例如,${user_id} + "hello world"

    主体

    填写完成RowKey配置规则后,单击主体解析,即可解析主体列表。同时,需要为解析出的主键名称配置值类型。支持字符串长整型

    指标配置

    配置指标的列簇名称、字段名称、字段类型、指标展示名称、值类型和描述信息。值类型支持字符串、长整型、双精度浮点数、日期、布尔、十进制小数

    若需配置多个指标,您可单击+添加进行配置。

  1. 单击发布,完成实时数据集的创建。

    说明

    保存成功后,单击验证。您可以根据配置的加工逻辑输入参数值,以验证您的加工逻辑是否正确。

后续步骤

完成实时数据集的创建和发布后,您可以为实时数据集创建对应的实时标签。更多信息,请参见实时标签概述