Dataphin标签基于离线计算引擎,支持通过表单加工方式配置数据集指标,对来源表字段进行计数(count)、取和(sum)、取最大值(max)、取最小值(min)后定义数据集指标,以供离线标签使用。本文将指导您如何通过表单加工创建离线数据集。
前提条件
创建离线数据集前需先创建数据集所归属的标签项目。更多信息,请参见创建标签项目。
操作步骤
- 在Dataphin首页,单击顶部菜单栏的标签 > 标签工作台。 
- 在顶部菜单栏中,选择项目。 
- 在左侧导航栏中选择数据准备 > 离线数据集。 
- 在离线数据集页面,单击新增数据集。在新增离线数据集对话框中,选择表单加工。 
- 在新建表映射配置页面,配置数据集的基本信息、加工逻辑和运维配置。 - 基本信息 - 参数 - 描述 - 数据集名称 - 填写数据集的名称信息。支持中文、英文、数字、下划线(_),64个字符以内。 - 数据集code - 离线数据集的唯一标识。在存在相同离线数据集名称时,可帮助您定位具体离线数据集。必须以字母开头,允许小写英文字母、数字、下划线(_),64个字符以内。 - 数据集更新方式 - 支持周期更新与手动更新方式。 - 周期更新:在一定时间的间隔内自动更新数据集。 
- 手动更新:通过手动操作更新方式更新数据集。 
 - 负责人 - 请选择该离线数据集的负责人。 - 描述 - 填写离线数据集的简单描述,1000个字符以内。 
- 加工逻辑 - 参数 - 描述 - 项目/数据板块 - 选择离线数据集所需要引用的项目或数据版本,下拉列表中包含当前租户下所有项目(已绑定离线计算源)和数据板块。 说明- 若未购买智能研发版,仅支持选择项目。 - 逻辑表/来源表 - 选择您需定义数据集的逻辑表/来源表。 - 逻辑表:若项目/数据板块中选择了数据板块,则支持选择来源表。逻辑表中仅支持选择有同步读权限的逻辑表。 - 选择逻辑表时先选择逻辑表类型,其次选择主题域,最后从该主题域内的所有逻辑表中选择目标逻辑表,主题域及逻辑表均支持输入关键字搜索。逻辑表类型分为事实逻辑表、维度逻辑表和汇总逻辑表。 说明- 逻辑表输出方式默认不包含关联关系。 
- 来源表:若项目/数据板块中选择了项目,则支持选择来源表。来源表中仅支持选择项目生产账号有查表数据的表。若无权限,您可以单击申请权限进行申请。 
 - 日期分区 - 选择来源表的分区字段。 - 若所选来源表为分区表,则系统将默认使用字段名称作为日期分区。若默认字段名称不在来源表的分区字段列表中,系统将使用该表的第一个分区字段作为日期分区。 
- 若所选来源表为非分区表,则无需选择日期分区。 
 - 分区字段格式 - 输入日期格式,或选择已有的日期格式。可选择yyyymmdd、yyyy-mm-dd、yyyy/mm/dd、yyyy.mm.dd。 - 实体ID-值类型 - 选择来源表内实体ID字段。仅支持选择字符型或长整型的字段类型。 - 指标配置 - 单击+添加指标,并选择您需要进行加工的统计字段,选择所需的统计函数、时间窗口、指标名称及描述,系统将根据选择自动识别值类型。 - 统计函数:根据统计字段类型支持不同统计函数。 - 长整型:计数(count)、取和(sum)、取最大值(max)、取最小值(min)。 
- 字符串:计数(count)、取最大值(max)、取最小值(min)。 
 
- 时间窗口:支持前1天、前7天、前15天、前30天及自定义。自定义时,支持普通日历或切换为已经创建的日历。 
- 指标名称:支持中英文、数字、下划线(_),需在64个字符以内。 
- 值类型:完成统计字段和统计函数的配置后,系统将自动识别指标的值类型。 
- 配置码值:支持整型、Decimal(M,0)、布尔型及字符串类型字段配置码表。 - 单击  进入配置码表对话框。 进入配置码表对话框。
- 在配置码表对话框中,配置相关参数。 - 配置码表:默认为不配置,可以选择码表为指标配置对应码表。 
- 码表来源:目前仅支持手动配置。 
- 码表名称:请输入码表名称。支持中文、英文数字及特殊字符,128个字符以内。 
- 码表描述:请输入码表的简单描述,1000个字符以内。 
- 代码信息:支持单个输入和批量输入,最多支持500组。 - 单个输入:单击添加代码值,输入代码值和代码名称,均不得为空且必须唯一,此外,代码值的类型需要符合指标的值类型。可单击  删除当前行。 删除当前行。
- 批量输入:单击批量输入,可以在批量输入代码信息对话框中,批量输入代码值及代码名称,每组按行分割,代码值和代码名称中间用半角冒号(:)分隔。单击点击识别后,系统将自动解析批量输入框的代码信息并填入代码信息列表。 
- 一键清除:单击一键清除,系统将自动清除信息列表。 
 
 
- 单击确定,完成代码值配置。 说明- 批量输入代码信息时,若存在重复的代码值或代码名称,单击确定后,系统将自动定位至第一个错误行。 
 
- 描述:填写指标的简单描述,128个字符以内。 
- 操作:单击  支持删除当前已配置指标。 支持删除当前已配置指标。
 - 若您需要添加多个指标,您可单击+添加指标进行新增。 - 过滤条件 - 若您需对统计字段数据进行过滤。您可使用筛选条件进行过滤。 - 过滤条件支持:大于等于、大于、小于等于、小于、不为空、为空、在范围中、不在范围中、或、与、晚于等于、晚于、早于等于、早于。 - 若您需多个过滤条件,您可单击+新增筛选条件进行新增。存在多个筛选条件时,支持或、且逻辑运算。 - 或:满足其中一个筛选条件时进行过滤。 
- 且:需同时满足所有筛选条件才进行过滤。 
 
- 运维配置 说明- 若数据集更新方式为手动更新,无需进行配置。 - 调度周期 - 计划更新时间:支持按天的某一时刻进行调度。即任务每天自动运行一次,您可以根据需要,指定运行的时间点。 
- 调度运行计划:单击预览,调度运行计划中按照所配置的调度周期和条件调度,展示当前调度任务某个月每一天的所有调度实例及其调度类型,预览日期类型可选择按照业务日期或运行日期(调度日期)。 - 若一天内所有实例有多个调度类型状态,则按颜色展示所包含的所有调度类型状态,并展示每个调度类型状态名称及其对应的实例个数。例如,下图中展示为某月4日,当前调度任务有44个正常调度实例、2个暂停实例和12个空跑实例。  - 鼠标悬浮在某天的调度类型模块上,可查看当前调度任务当日的详细调度实例列表,包含调度类型、调度条件和条件名称。 
- 条件调度:可设置多组调度条件,系统按照从上往下的顺序评估条件,命中条件后即执行相应调度,并终止后续所有调度条件的评估。未命中任何条件时,则执行默认调度配置。更多信息,请参见条件调度规则说明。 重要- 条件调度仅在调度类型为正常调度时生效。 
 
- 调度依赖 - 调度依赖即节点间的上下游依赖关系,在Dataphin中,上游任务节点运行完成且运行成功,下游任务节点才会开始运行。 - 自动解析 - 系统将根据任务血缘自动解析上游依赖节点并做关联,数据更新将依赖上游数据产出。 说明- 若自动解析的结果不符合预期,您可以单击  关闭生效按钮,关闭后表示不选择依赖该节点。 关闭生效按钮,关闭后表示不选择依赖该节点。
- 默认本周期依赖。 
 
- 添加依赖 - 若自动解析无法解析出调度依赖关系或自动解析生成的上游依赖配置与实际应用不符时,您可以手动添加节点的上游依赖。 - 单击添加依赖,选择添加物理节点或逻辑表节点,在弹出的对话框中选择一个或多个目标物理节或逻辑表节点后,单击确定。 说明- 若未购买智能研发版,则仅支持添加物理节点依赖。 
- 手动添加依赖后,再次单击自动解析,此时若生成的解析节点与手动添加的依赖节点一致,系统将自动进行覆盖操作。 
 
- 编辑依赖 - 在调度依赖列表中,单击目标上游依赖表操作列的  图标,在弹出的对话框中可修改依赖周期、依赖策略和依赖字段(仅逻辑表节点支持修改)。依赖配置及说明,详情请参见配置离线任务调度依赖、调度依赖场景规则与示例。 图标,在弹出的对话框中可修改依赖周期、依赖策略和依赖字段(仅逻辑表节点支持修改)。依赖配置及说明,详情请参见配置离线任务调度依赖、调度依赖场景规则与示例。- 单击目标上游依赖表操作列的  图标,可删除对应依赖节点。 图标,可删除对应依赖节点。
 
 
 
- 单击保存并发布,完成离线数据集的创建。 说明- 保存成功后,您可以单击数据预览。系统将根据配置的加工逻辑展示对应数据信息,以帮助您验证加工逻辑是否正确。 
后续步骤
完成离线数据集的创建和配置后,您可以为离线数据集创建对应的离线标签。更多信息,请参见离线标签。