通过SQL加工创建离线数据集

更新时间: 2024-06-13 14:32:59

Dataphin标签基于离线计算引擎,支持通过SQL加工方式开发数据集指标,对来源物理表字段进行预加工后供离线标签使用。本文将指导您如何通过SQL加工创建离线数据集。

前提条件

创建离线数据集前需先创建数据集所归属的标签项目。更多信息,请参见创建标签项目

操作步骤

  1. 在Dataphin首页,单击顶部菜单栏的标签->标签工作台

  2. 按照以下操作指引,进入新建离线数据集对话框。

    选择标签项目->单击离线数据集->单击新增数据集

    image

  3. 新增离线数据集对话框中,单击SQL加工

    image

  4. 新建SQL加工配置页面,配置数据集的基本信息。

    参数

    描述

    数据集名称

    填写数据集的名称信息。支持中英文、数字、下划线(_),64个字符以内。

    数据集code

    离线数据集的唯一标识。在存在相同离线数据集名称时,可帮助您定位具体离线数据集。必须以字母开头,允许小写英文字母、数字、下划线(_),64个字符以内。

    数据集更新方式

    支持周期更新手动更新方式。

    • 周期更新:在一定时间间隔内自动更新数据集。

    • 手动更新:通过手动操作方式更新数据集。

    负责人

    请选择该离线数据集的负责人。

    描述

    填写离线数据集的简单描述,1000个字符以内。

  5. 配置离线数据集的加工逻辑

    1. 配置加工逻辑(SQL)。

      参数

      描述

      加工逻辑(SQL)

      请输入对数据源进行加工的SQL代码。SQL代码说明如下:

      • 通过SQL加工的方式构造主体指标间的映射关系。

      • SELECT查询至少存在两个字段。

      • 系统通常会把第一个字段解析为主体,例如,SQL中的subjectId;后续的若干字段解析为指标,例如,indicatorAindicatorB。若解析主体标识不准确,您可以通过下方指标定义处进行调整。

      • 支持跨项目表加工,表名格式为项目英文名.项目下物理表名

        SELECT subjectId, indicatorA, indicatorB FROM project_en_name.source_table WHERE ds = ${bizdate};

      b.指标配置。

      填写完加工逻辑后,您需要单击指标解析,解析SQL的指标配置列表。

      image

      实体ID-值类型

      选择实体ID的字段以及值类型,将用于标签加工时实体ID的自动映射。仅支持长整型字符串

      指标搜索

      您可以通过指标搜索输入框输入指标名称描述搜索指标。

      指标名称

      请填写数据集所需定义的指标名称。必须以字母开头,由字母、数字、下划线(_)组成。

      值类型

      支持字符串、长整型、双精度浮点数、日期、布尔、十进制小数

      来源字段

      选择指标对应的来源字段。

      配置码表

      支持整型Decimal(M,0)布尔型字符串类型字段配置码表。

      1. 单击image.png进入配置码表对话框。

      2. 配置码表对话框中,配置相关参数。

        • 配置码表:默认为不配置,可以选择码表为指标配置对应码表

        • 码表来源:目前仅支持手动配置

        • 码表名称:请输入码表名称。支持中文、英文数字及特殊字符,128个字符以内。

        • 码表描述:请输入码表的简单描述,1000个字符以内。

        • 批量输入:单击批量输入,可以在批量输入代码信息对话框中,批量输入代码值及代码名称,每组按行分割,代码值和代码名称中间用半角冒号(:)分隔。单击点击识别后,系统将自动解析批量输入框的代码信息并填入代码信息列表。

        • 一键清除:单击一键清除,系统将自动清除信息列表。

        • 代码信息:支持手动输入代码值、代码名称。

          • 代码值:填写指标对应的代码值,填写类型需要符合指标的值类型,不可为空,且填写的代码值需唯一。

          • 代码名称:支持填写所有字符类型,不可为空,且填写的代码值需唯一。

            说明

            单击image.png支持删除当前已创建的代码值。

      3. 单击确定,完成代码值配置。

      描述

      填写字段的简单描述,128个字符以内。

      操作

      单击image..png可删除当前字段。

  6. 配置离线数据集的运维配置

    说明

    若数据集更新方式为手动更新,无需进行配置。

    1. 调度周期

      • 计划更新时间:支持按天的某一时刻进行调度。即任务每天自动运行一次,您可以根据需要指定运行的时间点。

      • 条件调度:可设置多组调度条件,系统按照从上往下的顺序评估条件,命中条件后即执行相应调度,并终止后续所有调度条件的评估。未命中任何条件时,则执行默认调度配置。更多信息,请参见条件调度规则说明

        重要

        条件调度仅在调度类型为正常调度时生效。

    2. 调度依赖

      调度依赖即节点间的上下游依赖关系,在Dataphin中,上游任务节点运行完成且运行成功,下游任务节点才会开始运行。

      image

      • 自动解析

        系统将根据任务血缘自动解析上游依赖节点并做关联,数据更新将依赖上游数据产出。

        说明
        • 若自动解析的结果不符合预期。您可以单击image.png关闭生效按钮,关闭后表示不选择依赖该节点。

        • 默认本周期依赖。

      • 添加依赖

        自动解析无法解析出调度依赖关系或自动解析生成的上游依赖配置与实际应用不符时,您可以手动单击+添加依赖添加节点的上游依赖。

  7. 单击保存并发布,完成离线数据集的创建。

    说明

    保存成功后,您可以单击数据预览系统将根据配置的加工逻辑展示对应数据信息,以帮助您验证加工逻辑是否正确。

后续步骤

完成离线数据集的创建和配置后,您可以为离线数据集创建对应的离线标签。更多信息,请参见离线标签概述

上一篇: 通过表映射创建离线数据集 下一篇: 通过表单加工创建离线数据集
阿里云首页 智能数据建设与治理 Dataphin 相关技术圈