通过表映射创建离线数据集

Dataphin标签基于离线计算引擎,支持通过表映射方式将物理表字段直接定义成为数据集指标。本文将指导您如何通过表映射创建离线数据集。

前提条件

创建离线数据集前需先创建数据集所归属的标签项目。更多信息,请参见创建标签项目

操作步骤

  1. 在Dataphin首页,单击顶部菜单栏的标签 > 工作台

  2. 在顶部菜单栏中,选择项目

  3. 在左侧导航栏中选择数据准备 > 离线数据集

  4. 离线数据集页面,单击新建数据集。在新建离线数据集对话框中,选择表映射

  5. 新增表映射配置页面,配置数据集的基本信息加工逻辑运维配置

    • 基本信息

      参数

      描述

      数据集名称

      填写数据集的名称信息。支持中英文、数字和下划线(_),64个字符以内。

      数据集code

      离线数据集的唯一标识。在存在相同离线数据集名称时,可帮助您定位具体离线数据集。必须以字母开头,允许小写英文字母、数字和下划线(_),64个字符以内。

      数据集更新方式

      支持周期更新手动更新方式。

      • 周期更新:在一定时间的间隔内自动更新数据集。

      • 手动更新:通过手动操作方式更新数据集。

      负责人

      请选择该离线数据集的负责人。

      描述

      填写离线数据集的简单描述,1000个字符以内。

    • 加工逻辑

      参数

      描述

      项目

      选择离线数据集所需要引用的项目名称,支持跨通用项目选表。

      来源表

      选择您需定义数据集的来源表名称。

      说明
      • 仅支持选择项目生产账号有查表数据的表。若无权限,您可以单击申请权限进行申请。

      • 非分区表仅支持管理中心 > 标签平台设置的一级分区字段名的分区表。更多信息,请参见标签平台设置

      日期分区

      选择来源表的分区字段。

      • 若所选来源表为分区表,则系统将默认使用字段名称作为日期分区。若默认字段名称不在来源表的分区字段列表中,系统将使用该表的第一个分区字段作为日期分区。

      • 若所选来源表为非分区表,则无需选择日期分区。

      分区字段格式

      输入日期格式,或选择已有的日期格式。可选择yyyymmddyyyy-mm-ddyyyy/mm/ddyyyy.mm.dd

      实体ID-值类型

      选择实体ID字段。将用于标签加工时实体ID自动映射。

      说明

      系统将根据实体ID字段的类型自动生成值类型

      指标配置

      完成项目来源表实体ID-值类型选择后,您可以在指标配置列表中勾选定义数据集的指标,并配置对应来源字段、码表和描述。

      说明
      • 指标名称不能与一级分区字段名称重复。

      • 分区字段和特殊字段类型不支持选择,请以实际系统界面是否可选为准。

      • 已作为实体ID的字段不可再作为指标。

      • 搜索指标:支持输入指标名称或指标描述搜索指标。

      • 批量添加指标:单击批量添加指标,在选择来源字段对话框中,您可以批量勾选来源字段添加到指标配置列表中。

      • 配置码表:仅支持整型Decimal(M,0)布尔型字符串类型字段配置码表。

        1. 单击image.png进入配置码表对话框。

        2. 配置码表对话框中,配置相关参数。

          • 配置码表:默认为不配置,可以选择码表为指标配置对应码表

          • 码表来源:目前仅支持手动配置

          • 码表名称:请输入码表名称。支持中文、英文、数字及特殊字符,128个字符以内。

          • 码表描述:请输入码表的简单描述,1000个字符以内。

          • 批量输入:单击批量输入,可以在批量输入代码信息对话框中,批量输入代码值及代码名称,每组按行分割,代码值和代码名称中间用半角冒号(:)分隔。单击点击识别后,系统将自动解析批量输入框的代码信息并填入代码信息列表。

          • 一键清除:单击一键清除,系统将自动清除信息列表。

          • 代码信息:支持手动输入代码值、代码名称。

            • 代码值:填写指标对应的代码值,填写类型需要符合指标的值类型,不可为空,且填写的代码值需唯一。

            • 代码名称:支持填写所有字符类型,不可为空,且填写的代码值需唯一。

              说明

              单击image.png支持删除当前已创建的代码值。

        3. 单击确定,完成代码值配置。

      • 操作:单击image支持删除当前已配置指标。

      • 批量删除:您可以对选中的指标进行批量删除。

    • 运维配置

      说明

      若数据集更新方式为手动更新,无需进行配置。

      1. 调度周期

        • 计划更新时间:支持按天的某一时刻进行调度。即任务每天自动运行一次,您可以根据需要,指定运行的时间点。

        • 条件调度:可设置多组调度条件,系统按照从上往下的顺序评估条件,命中条件后即执行相应调度,并终止后续所有调度条件的评估。未命中任何条件时,则执行默认调度配置。更多信息,请参见条件调度规则说明

          重要

          条件调度仅在调度类型为正常调度时生效。

      2. 调度依赖

        调度依赖即节点间的上下游依赖关系,在Dataphin中,上游任务节点运行完成且运行成功,下游任务节点才会开始运行。

        • 自动解析

          系统将根据任务血缘自动解析上游依赖节点并做关联,数据更新将依赖上游数据产出。

          说明
          • 若自动解析的结果不符合预期,您可以单击image.png关闭生效按钮,关闭后表示不选择依赖该节点。

          • 默认本周期依赖。

        • 添加依赖

          自动解析无法解析出调度依赖关系或自动解析生成的上游依赖配置与实际应用不符时,您可以手动单击+添加依赖添加节点的上游依赖。

  6. 单击保存并发布,完成离线数据集的创建。

    说明

    保存成功后,您可以单击预览。系统将根据配置的加工逻辑展示对应数据信息,以帮助您验证加工逻辑是否正确。

后续步骤

完成离线数据集的创建和配置后,您可以为离线数据集创建对应的离线标签。更多信息,请参见离线标签概述