新建和管理数据标准

数据标准是为业务、技术和管理提供服务和支持,数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。本文为您介绍如何新建和管理数据标准。

权限说明

  • 超级管理员、数据标准管理员可以在所有标准集下新建或克隆数据标准。

  • 标准集维护人员及标准集成员可以在已加入的标准集下新建或克隆数据标准。

  • 超级管理员、数据标准管理员及标准负责人可管理所负责的数据标准,包括编辑、提交上线、删除、下线等。

使用限制

单个标准集下可创建的标准个数不超过1000个。

使用说明

  • 在数据标准页面您可以更聚焦于某个关注的或与自己相关的标准集,快速概览该标准集下的标准概况。

  • 在数据标准页面您可以点击查看全部标准,查看有查看权限的全量标准列表,以便更快获取数据标准全貌,您也可以点击查看流程引导,帮助您更好的了解数据标准创建、管理及应用的全流程。

标准列表

您可以在标准列表列表页面查看已经配置的数据标准信息,并进行搜索、查看、编辑、删除、新建标准、克隆、上线、发布、撤销等操作。

image

状态

操作项

已生效、待生效、已失效

支持查看、编辑、克隆、下线

发布中

支持查看、跳转审批任务、重新发布、撤销发布、克隆

修订中、草稿

支持查看、编辑、提交上线、克隆、删除

操作项

描述

查看

可点击标准的名称或操作列下的image图标,查看标准的基本信息及监控规则配置详情。支持切换查看历史版本记录。

image

编辑

  • 发布中状态的标准不支持编辑。

  • 标准创建后,标准编码不支持编辑。

  • 编辑已生效待生效已失效的标准,将对应生成一个修订中状态的标准,修订中的标准再次发布前不会影响已发布过的版本。

提交上线

提交上线需经过审批,审批通过后标准将变为已生效待生效状态。

支持在资产目录查看已生效的标准,可针对已生效的标准进行落标映射关联。

克隆

可快速克隆标准。

删除

草稿态修订中的标准支持删除,删除后不可撤销。

跳转审批任务

可跳转查看标准对应的审批任务。

重新发布

  • 审批被驳回的标准,重新发布需要重新走上线发布审批。特殊的,若重新发布时,标准对应的标准集版本已变更,则不支持重新发布,需撤销本次发布并修改标准配置后,重新发起审批。

  • 审批通过但发布执行失败的标准,直接重新发布无需重新审批。

撤销发布

  • 如果是审批中的任务,自动撤销审批任务,并将发布中的对象退回到提交发布前的状态。

  • 如果是审批驳回的任务,则直接将发布中的对象退回到提交发布前的状态。

下线

下线标准需要经过审批,审批通过后标准将变成草稿态。

自定义创建

  1. 在Dataphin首页,单击顶部菜单栏的资产,进入数据标准页面。

  2. 在左侧标准集列表中选择标准集,并在选中的标准集下直接创建数据标准。

    image
  3. 新建标准对话框,配置标准的参数信息,包括属性配置、监控配置和其他基础属性配置。

    image

    参数

    描述

    属性配置

    属性信息

    属性值填写规范取决于所属标准集的属性配置。如:暂停调度日期属性所对应的字段取值类型为枚举值(单选),可选枚举值范围引用了中国法定节假期码表,则创建数据标准时,该属性值为下拉单选框,可选项为枚举值(单选),可选枚举值范围为引用了中国法定节假期码表的码值。

    image

    若属性字段取值类型为范围值,则配置方式如下:

    • 输入枚举值:常用于取值范围可枚举的情况。多个枚举值之间用英文半角逗号分隔,不超过5000字符。

    • 区间值:常用于取值范围是连续数值或日期的情况。可选择>>=<<=不限制五种符号,若最大值和最小值都选择不限制,则无需配置。

    • 引用码表:常用于属性值范围是动态变化的,或需要遵循某个约束的场景。仅可选状态为已发布的码表。

    更多属性配置信息,请参见自定义属性

    当属性配置引用系统属性-数据类型时,需要选择字段在数据库中存储的数据类型。

    • 若数据类型选择了CHAR(n)或者VARCHAR(n),则需配置长度。CHAR默认255,可选择1~255之间的整数, VARCHAR默认1000,可选择1~65535之间的整数。

    • 若数据类型选择了DECIMAL(p,s),则需配置精度。DECIMAL默认[38,18]。

      precison可选择1~38之间的整数,scale可选择0~18之间的整数。

      说明

      scale必须小于precision,否则输入无效。

    监控规则

    监控规则包括引用系统属性继承的元数据监控内容质量监控,以及自定义添加的质量监控规则,创建质量监控规则请参见质量监控规则配置

    监控规则配置

    如果您购买了资产质量模块,可自定义添加质量监控,如字段唯一值校验。配置后,当前标准映射到的所有资产对象,都可以在质量规则配置页面快速引用添加当前标准配置的监控,以便更好的遵循数据标准的约束,并实现批量创建质量监控的效果。每个数据标准最多配置100条监控规则。

      说明
      • 若该标准删除质量监控规则,则引用生成的质量规则配置将不完整,请根据业务需求,谨慎操作。

      • 若该标准修改质量监控规则,则引用生成的质量规则会同步更新,但不会修改质量自定义配置的内容。

      • 引用带有监控的公共属性,则会自动添加相应监控规则,如元数据监控。

    • 创建Dataphin数据表质量规则时,可引用此处配置的质量监控规则,规则配置和校验配置复用标准配置不可修改,支持自定义规则强弱、调度方式、生效开关、告警等信息。

    • 当前标准映射上的所有资产对象,可在资产质量模块引用配置的内容质量监控,快速批量生成质量规则。

    其他信息

    所属标准集

    默认标准集名称。

    生效时间

    设置标准的生效时间。

    • 永久:永久生效。

    • 自定义:在指定的时间段内生效。超过指定的时间段,标准会变为已失效状态,如果需要继续使用该标准,您可以修改生效时间后重新发布。

    负责人

    选择该标准的负责人。标准负责人需要是所属标准集的维护人员或成员,可以编辑和删除该标准。

    描述

    自定义描述,不超过256字符。

  4. 单击保存,在标准列表查看配置信息。

    单击保存并发布需在提交上线标准对话框填写审批备注

    image

质量监控规则配置

image

区域

参数

描述

基本信息

规则名称

根据业务需求自定义规则名称,不超过128字符。

描述

自定义质量规则描述,不超过128字符。

模板来源

系统模板:模板内置参数可配置,适合通用的规则创建。

自定义模板:模板预置参数,无需配置,一般用于含业务逻辑的规则创建。

规则模板

规则模板包括完整性唯一性有效性稳定性

  • 完整性:包括字段空值校验字段空字符串校验

  • 唯一性:包含字段唯一性校验字段分组个数校验字段重复值个数校验

  • 有效性:包含字段格式校验字段长度校验字段值域校验码表参照对比

  • 稳定性:包含字段稳定性校验字段波动性校验

模板说明详情请参见模板类型说明

规则配置

配置监控规则的详情。特殊的,如果是需要配置校验字段的模板,将根据标准映射到的字段或指标自动选中,无需在此处进行配置,其他配置请参见规则配置说明

注意:规则配置仅支持在数据标准修改,质量页面引用当前规则后不支持修改规则配置,但是可以修改规则名称、规则强弱、调度配置、生效状态等信息,并进行运行和试跑。

校验配置

校验配置根据选择的模板不同有所差异,配置详情请参见校验配置说明

注意校验配置仅支持在数据标准修改,质量页面引用当前规则后不支持修改校验配置。

批量导入

说明

批量导入不支持导入监控配置。

  1. 标准集列表页面,单击右上角的批量导入

    image
  2. 批量导入页面,配置相关参数。

    image

    区域

    参数

    描述

    STEP 1 下载配置模板

    导入场景

    支持两种导入场景:新增更新

    • 新增:默认选中,点击下载空模板。

    • 更新:可选择已生效待生效修订中草稿已失效

      说明

      仅支持更新有编辑权限且为可编辑状态的标准,将对下载的标准进行过滤。

    点击生成模板,生成.xlsx格式的模板文件。

    STEP 2 上传配置文件

    上传文件

    • 填写模板时,请按照标准集的属性字段定义填写,导入过程中将基于属性定义进行唯一性、规范性校验。

    • 仅能选择.xlsx类型的文件,最多支持1000行(不包括标题)。

    • 文件大小不超过20M。

    • 标题行:展示属性名称、属性字段类型、属性说明,必填属性,用红色*标识。

    • 标准ID:不可删除,用于唯一识别标准的对象。可为空,为空则视为新增标准处理。

    • 开始生效时间和结束生效时间为空,则有效期视为用久。

    • 若属性字段类型为日期时间型,支持yyyy/MM/dd,yyyyMMdd,yyyy-MM-dd,hh:mm和hh:mm:ss5种格式。

    • 若某个属性配置为范围值,则填写方式如下:

      • 若设置的是枚举值输入,则以英文半角逗号作为分隔符解析输入的内容,配置格式为:F,M。

      • 若设置的是引用码表,需要填写码表编码。配置格式为:date001。

      • 若设置的是区间值,起始值和结束值用英文半角逗号分隔,设置了双边,配置格式为:>=a,<b。设置了单边,配置格式为:<=b。

      • 若设置的是数据类型,输入值需在枚举范围内,带有长度或精度的,配置格式为:CHAR(20),VARCHAR(20),DECIMAL[38,18]。

    STEP 3 冲突解决策略

    校验字段

    标准名称(标准集内唯一,大小写不敏感)。

    处理策略

    • 冲突则跳过:如果导入的标准名称和已有标准重复,则跳过记录不处理。

    • 冲突则覆盖更新:如果导入的标准名称和已有标准重复,导入成功后原有记录被删除。

      说明
      • 冲突检测仅针对标准ID为空的记录生效。如果根据ID找不到对应的标准,则视为校验不通过,导入异常。

      • 标准名称在所属标准集下唯一,如果导入的标准名称和已存在的标准名称重复,或单次导入中有多条记录的标准名称重复,会按照处理策略,跳过记录不处理或以新记录覆盖原有对象。

  3. 单击开始导入,呼出导入结果页面。

    image

    参数

    描述

    导入结果

    可查看导入进度执行时间

    异常记录

    • 如果导入过程中出现解析或校验失败等异常情况,则为您展示导入异常的记录,包括记录在原始文件中对应的行号标准名称标准编码异常提示

    • 可单击下载异常记录,将对应的原始记录下载成Excel文件。

      image

    跳过记录

    • 如果在导入过程中出现名称相同的标准,则会为您展示导入跳过的记录,包括记录在原始文件中对应的行号标准名称标准编码负责人

    • 可单击下载跳过记录,将对应的原始记录下载成Excel文件。

      image

    执行日志

    将导入过程的执行日志打印出来,可复制。

    导入完成后,若您想快速查看导入结果,可关闭导入配置弹框,关闭弹框不会终止导入任务的执行。您可以在标准列表,单击查看导入记录,并选择需要查看的历史导入记录。

查看导入记录

  1. 标准集列表页面,单击右上角的查看导入记录

    说明

    仅保留最近15天的批量导入记录,最多保留1000条导入记录。

    imageimage
阿里云首页 智能数据建设与治理 Dataphin 相关技术圈