数据标准是对含义相同但字段名称不同的数据进行统一规范管理的数据准则,数据标准可定义字段的取值范围、度量单位等内容。当数据标准发生变化时可快速定位或变更对应的表,极大地提升了应用效率和准确率。本文将为您介绍数据标准的创建方法。

背景信息

数据标准又称为数据字典,可理解为全局字段管理。可将多个表中含义相同但字段名不同的内容进行关联,并对该字段制定相关的取值范围、度量单位、标准代码等内容。后期数据标准发生变化时,可快速定位和变更关联的表,极大程度提升构建效率、应用效率、准确性和后期治理效果。

相关示例如下:

现有注册表和登录表,注册表中存储了会员ID,字段名为user_id,登录表中也存储了会员ID,字段名为userid。此时两个表中包含的会员ID均是同一内容,但是使用了两种不同的字段名进行描述,字段出现了歧义便需要人工介入理解进行确认。

解决方法如下:

我们可通过DataWorks数据建模创建新的数据标准,预先在模型中定义会员ID标准,然后在创建注册表和登录表时,将对应会员ID的字段引用该标准。在后期分析中可自动推荐两张表的关联关系和关联字段,极大地提升应用效率和准确性。

新建标准

注意层级关系

  • 数据标准在创建时需要放在根目录、目录或标准集下方,相关说明如下。
    • 根目录:目录中最顶级的目录,所有的目录、标准集、标准只能放置在根目录下。
    • 目录:用于存放标准和标准集,类似操作系统的文件夹目录。
    • 标准集:和目录类似,但标准集内只能存放标准。
  • 数据标准之间可存在继承关系,如买家ID标准和卖家ID标准均可继承于会员ID标准。

创建目录与标准集

  1. 进入数据建模
  2. 进入数据标准
    数据建模页面的顶部菜单栏,单击数据标准,进入数据标准页面。
  3. 新建根目录。
    1. 数据标准页面,单击加号图标,选择新建根目录
    2. 在弹出的新建根目录对话框中,填写名称,单击确定新建根目录
      名称格式要求如下:
      • 名称只能由中文、英文大小写、数字、下划线、中英文括号、空格、and(&)组成。
      • 名称必须以中文或大小写字母开头,不能以左括号、下划线、空格、and(&)结尾。
      • 名称最大长度不可超过128个字符。
    3. 根目录创建成功后,可在左侧数据标准区域下方的目录树中查看已创建的根目录。
  4. 可选:新建子目录。
    1. 在左侧目录树,选择已创建完成的根目录。
    2. 右击根目录名称,选择新建子目录
    3. 在弹出的新建子目录对话框中,填写名称,单击确定新建根目录
      名称格式要求如下:
      • 名称只能由中文、英文大小写、数字、下划线、中英文括号、空格、and(&)组成。
      • 名称必须以中文或大小写字母开头,不能以左括号、下划线、空格、and(&)结尾。
      • 名称最大长度不可超过128个字符。
  5. 可选:新建目录集。
    1. 在左侧目录树,选择已创建完成的根目录或子目录。
    2. 右击目录名称,选择新建标准集
    3. 在弹出的新建标准集对话框中,填写名称,单击确定标准集
      名称格式要求如下:
      • 名称只能由中文、英文大小写、数字、下划线、中英文括号、空格、and(&)组成。
      • 名称必须以中文或大小写字母开头,不能以左括号、下划线、空格、and(&)结尾。
      • 名称最大长度不可超过128个字符。

创建标准

  1. 在左侧目录树下,选择需要对应目录或标准集。
  2. 右击目录或标准集名称,选择新建标准
  3. 在弹出的新建标准对话框中,配置如下内容。
    新建标准
    参数项 参数描述 是否必填 示例值
    标准编号 自定义编码,最大长度为64个字符。 必填 HI00001
    英文缩写 对应表字段的编码,命名规则如下。
    • 仅能由小写英文字母、数字、下划线组成。
    • 必须以小写英文字母开头,不能以下划线结尾。
    • 最大长度不可超过128个字符。
    必填 vipid
    英文名称 对应字段表的英文名称,命名规则如下。
    • 名称只能由英文大小写字符、数字、下划线、英文括号、空格、and(&)组成。
    • 名称必须以小写英文字母开头,不能使用英文左括号、下划线、空格、and(&)结尾。
    • 名称最大长度不可超过2048个字符。
    必填 The member ID standard
    中文名称 对应字段表的中文名称,命名规则如下。
    • 名称只能由中文、英文大小写、数字、下划线、中英文括号、空格、and(&)组成。
    • 名称必须以中文或大小写字母开头,不能以左括号、下划线、空格、and(&)结尾。
    • 名称最大长度不可超过2048个字符。
    必填 会员ID标准
    数据类型 对应字段的数据类型,包括如下:

    BIGINT、DOUBLE、DECIMAL、STRING、DATETIME、BOOLEAN。

    必填 DECIMAL
    长度 数据类型关联参数。

    例如,选择DECIMAL类型,则长度对应DECIMAL(20,4)中的20。

    20
    精度 数据类型关联参数。

    例如,选择DECIMAL类型,则长度对应DECIMAL(20,4)中的4。

    4
    非空 引用该标准的字段值是否可以为空。默认为空。 不选择
    默认值 引用该标准的字段值未填写时的默认值。最大长度不可超过2048个字符。 000000
    业务定义 对业务的定义描述,最大长度不可超过2048个字符。 针对会员指定的ID标准
    所属路径 标注所属的目录,您可从已创建的目录、子目录、标准集中 选择。 选择会员标准集
    父级标准 可选择已创建的标准作为父级标准,选择后与该标准产生继承关系,帮助您更好地识别字段的关联关系。

    例如,卖家ID和卖家ID均属于会员ID,则买家ID标准和卖家ID标准的父级标准就是会员ID标准。

    选择会员ID标准
    引用代码 您可从已创建的标准代码中,引用指定标准代码来约束字段的取值范围,标准代码请参见标准代码 选择会员ID标准代码

删除

  • 删除标准
    说明 数据标准如已被引用,则无法删除,需在对应部分删除引用。
    1. 选择标准所在的标准集或子目录名称。
    2. 在右侧单击对应标准操作列的删除
  • 删除标准集、子目录、根目录

    在左侧目录树直接右击标准集、子目录或根目录的名称,选择删除

    说明 不支持跨层级删除目录。

后续步骤

创建完成后,您可在数据建模配置事实表与维度表字段时进行关联,关联方法请参见字段管理