Dataphin支持自动解析SQL类型计算任务和逻辑表任务的血缘信息,针对非SQL类型的计算任务,支持自定义配置血缘信息,以补全血缘链路。本文为您介绍如何自定义配置非SQL任务的血缘。
使用限制
仅支持针对非SQL类型的计算任务自定义配置血缘关系。
最多配置20个血缘组,每个血缘组内最多分别配置5个输入及输出。
血缘配置说明
血缘组&血缘:每个任务支持配置多个血缘组。血缘组内的每个输入和输出一一对应生成血缘关系,血缘组之间彼此独立。每个输入输出配置将同时生成表级血缘和字段级血缘。
例如:输入表1选择table A的a字段,输入表2选择table B的b字段,输出表选择table C的c, d字段,则会生成以下血缘关系:
表级血缘:table A-->table C; table B-->table C。
字段级血缘:table A.a-->table C.c; table B.b-->table C.c; table A.a-->table C.d; table B.b-->table C.d。
支持配置输入输出表的所属环境,如果所属环境选择了自动,将在提交和发布阶段自动替换环境参数生成对应开发环境和生产环境的血缘。
配置血缘
在Dataphin首页的顶部菜单栏中,选择研发 > 数据研发。
在开发页面的顶部菜单栏选择项目(Dev-Prod模式需要选择环境)。
在左侧导航栏中选择数据处理 > 计算任务。
在计算任务列表中,单击目标计算任务,打开对应计算任务页签。
单击页面右侧边栏的血缘,打开血缘配置面板。
在血缘配置面板中,单击+新增血缘组,进行输入与输出表配置。
输入表配置
在血缘组区域内,单击配置输入表,打开配置输入表对话框,在对话框中配置以下参数。
参数
描述
所属环境
输入输出表的所属环境,支持选择自动、开发或生产。
所属环境选择自动,相当于代码中以空间变量${项目名/板块名}的方式引用表,可选范围为开发环境的表。任务提交成功后变量将替换为开发环境表并解析血缘关系,发布成功后将自动替换为对应的生产环境表并解析血缘关系。如果不存在对应的生产表,不阻塞提交发布,但无法解析生产血缘。
所属环境选择开发或生产,则提交发布时不做变量替换,以配置为准。
输入表
支持的数据表类型包括:物理表、物理视图、维度逻辑表、事实逻辑表、汇总逻辑表、标签逻辑表、逻辑视图。
选中范围
全表:以提交发布时对应表的全部字段为准生成血缘关系。
说明血缘仅在配置任务提交和发布成功时更新,后续输入输出表结构变更不会自动触发血缘更新。
指定字段:根据业务需要选择对应表中的指定字段。
单击确定,完成输入表配置。
配置输出表
在血缘组区域内,单击配置输出表,打开配置输出表对话框,在对话框中配置相关参数。
输出表与输入表所需配置的参数相同。
单击确定,完成输出表配置。
各血缘组的输入表和输出表配置均完成后,单击血缘配置面板中的确定,完成血缘的配置。
提交并发布血缘
血缘配置完成后,单击当前计算任务代码编辑区域上方的提交。
在提交详情对话框中,单击确认并提交。
在提交详情的对象检查步骤中,将会校验血缘配置中引用的输入输出表及字段是否存在。
说明血缘配置仅在提交环节进行对象检查,发布环境不做额外检查。
系统在任务提交时,解析开发环境的表和字段血缘关系;发布时,解析生产环境的表和字段血缘关系。单个任务提交或发布时支持解析不超过10万条血缘关系,超过则不予记录,在资产目录中无法展示。
查看血缘
任务提交发布完成后,您可以在数据表详情页面查看自定义配置的表级和字段级血缘关系,详情请参见物理表详情。