离线数据集概述

离线数据集是通过指标映射创建离线标签的前提条件。可以选择表映射、SQL加工以及表单加工的方式对离线数据集进行定义。并通过预定义加工的方式,以便后续的离线标签创建。

功能概述

您可根据业务需求创建所需的离线数据集。离线数据集的加工方式不同,创建过程不同。描述说明如下:

创建方式

描述

通过表映射创建离线数据集

将物理表字段直接定义成为数据集指标。

通过SQL加工创建离线数据集

通过SQL加工方式开发数据集指标。

通过表单加工创建离线数据集

通过表单加工方式配置数据集指标。

离线数据集页面概述

离线数据集页面主要由筛选区、离线数据集列表、操作区组成。您可以在离线数据集页面进行离线数据集的创建或对创建的离线数据集进行管理操作。

image

区域

说明

操作区

  • 只看我的:筛选当前登录账号创建的离线数据集。

  • 搜索:支持通过输入数据集名称、数据集code搜索离线数据集。

  • 筛选:单击image,可展开筛选区。支持筛选项包括加工方式数据集状态更新方式负责人运行状态

  • 新建数据集:单击新建数据集,可根据业务需求创建所需的离线数据集。离线数据集的加工方式不同,创建过程不同。具体操作,请参见功能概述

  • 刷新:单击image.png刷新图标可刷新当前离线数据集列表。

离线数据集列表

离线数据集页面以列表形式为您展示创建的离线数据集,包括数据集名称加工方式更新方式负责人数据集状态运行状态下游标签最近修改时间描述。数据集存在下游标签时,您可以单击下游标签的image查看图标,查看具体标签信息。如下图所示:

image

列表操作栏为您展示离线数据集支持的管理操作。管理操作包括复制、编辑、详情、查看实例、下线、前往运维、补数据、删除。

  • 复制:复制当前数据集信息创建新的数据集。

  • 编辑:对于编辑中已发布发布失败已下线的离线数据集,可以编辑当前数据集的可编辑信息,包括基本信息运维配置加工逻辑

    说明
    • 对于通过表映射SQL加工的离线数据集,编辑时支持修改指标的来源字段,修改的来源字段类型需要符合指标的值类型表单加工的离线数据集支持切换指标的统计字段统计函数,切换的统计字段统计函数的选择结果必须符合指标的值类型

    • 对于离线映射数据集、离线表单数据集的来源表提示未获取到表结构信息时,请检查来源表是否被删除或表名称被更改。

  • 详情:可查看当前数据集的配置详情信息。

  • 查看实例:可查看当前离线数据集的运行实例。并且在实例列表中支持查看实例详情、运行日志及重跑操作。

    image.png

  • 下线:已发布的离线数据集进行下线操作

  • 运行:手动更新方式的离线数据集进行运行操作。在运行对话框中,支持选择业务日期运行,即读取的来源表分区为选择的业务日期,默认为昨天(T-1)

    说明

    手动运行后将更新数据集数据以及引用该数据集的标签数据。

  • 前往运维:跳转至当前离线数据集的运维页面。更多信息,请参见查看并管理脚本任务

  • 补数据:对当前更新方式为周期更新方式的离线数据集进行补数据操作。

    说明

    补数据后将更新数据集数据以及引用该数据集的标签数据。

  • 删除:编辑中已下线的离线数据集支持删除操作

离线数据集入口

  1. 在Dataphin首页,单击顶部菜单栏的标签->标签工作台

  2. 按照以下操作指引,进入离线数据集页面。

    选择标签项目->单击离线数据集

    image