Dataphin标签支持通过计算脚本方式对HBase数据源表字段进行解析,定义数据集指标。本文将指导您如何通过HBase数据源创建和配置实时数据集。
前提条件
创建实时数据集前请先创建数据集所归属的标签项目。具体操作,请参见创建标签项目。
通过HBase创建实时数据集请前先创建用于实时数据集的HBase数据源。具体操作,请参见创建HBase数据源。
操作步骤
在Dataphin首页,单击顶部菜单栏的标签->标签工作台。
按照以下操作指引,进入新增实时数据集对话框。
选择标签项目->单击实时数据集->单击新增数据集。
在新增实时数据集对话框中单击选择HBase数据集。
在新增HBase配置页面,配置数据集的基本信息及加工逻辑。
基本信息
加工逻辑。
变量:使用
${}
包裹。示例,${variable}
。字符串常量:使用
""
包裹。示例,"hello word"
。函数:
md5()
参数为字符串。示例,md5("hello word")
或者如md5({user_id})
。表达式:
+
连接多个字符串。例如,${user_id} + "hello world"
。
参数 | 描述 |
数据集名称 | 填写数据集的名称信息。支持中英文、数字、下划线(_),64个字符以内。 |
数据集code | 实时数据集的唯一标识。在存在相同实时数据集名称时,可帮助您定位具体实时数据集。必须以字母开头,允许小写英文字母、数字、下划线(_),64个字符以内。 |
负责人 | 请选择该实时数据集的负责人。 |
描述 | 填写实时数据集的简单描述,1000个字符以内。 |
参数 | 描述 |
数据源 | 选择所需加工的HBase数据源。若无可选HBase数据源,需要进行创建。具体操作,请参见创建HBase数据源。 |
来源表 | 选择HBase数据源中所需加工的来源表。 |
RowKey配置规则 | 配置RowKey规则。 RowKey表达式支持函数与变量: |
主体 | 填写完成RowKey配置规则后,单击主体解析,即可解析主体列表。同时,需要为解析出的主键名称配置值类型。支持字符串和长整型。 |
指标配置 | 配置指标的列簇名称、字段名称、字段类型、指标展示名称、值类型和描述信息。值类型支持字符串、长整型、双精度浮点数、日期、布尔、十进制小数。 若需配置多个指标,您可单击+添加进行配置。 |
单击发布,完成实时数据集的创建。
保存成功后,单击验证。您可以根据配置的加工逻辑输入参数值,以验证您的加工逻辑是否正确。
后续步骤
完成实时数据集的创建和发布后,您可以为实时数据集创建对应的实时标签。更多信息,请参见实时标签概述。