数据标准制定和使用

更新时间: 2025-07-14 15:30:45

DataWorks数据建模支持在建模前规划制定数据标准,或在建模使用过程中根据业务情况沉淀企业业务的数据标准。通过规范约束标准代码、度量单位、字段标准、命名词典,来保障后续建模与应用过程中数据处理的一致性,从源头上保障数据的标准化生产,节约后续数据应用和处理的成本。

支持的数据标准

DataWorks支持的数据标准包含字段标准标准代码度量单位命名词典

字段标准

字段标准用于规范化定义字段的名称、数据类型、取值范围等信息。通过对含义相同的字段进行统一的标准化,可以避免由于名称或类型多样化而导致的混淆。例如,通过创建好字段标准member_id并在相应表中关联此标准,可确保所有会员ID字段的标准统一。

表名

原始字段

问题

标准化后字段

注册表

user_id

命名不一致

member_id

登录表

userid

无下划线,易歧义

标准代码

标准代码用于定义字段的取值范围。在标准代码中,可以设置某一字段的可选数据内容及其范围。例如,性别字段取值只有“”、“”和“未知”。

度量单位

度量单位提供业务所涉及度量单位,包含货币单位、对象量词、时间单位等。例如,商品数量的度量单位为

命名词典

命名词典提供业务名词、物理表、字段的词根和词素及其标准化翻译功能,可理解成您的企业级命名规范库。例如,衡量公司年度收入的标准叫法为年度总营业额

数据标准关系图

image

此处关联指的是,将数据标准和逻辑模型中的具体字段联系在一起,具体字段将会遵守标准所制定的规范。

进入数据标准

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与运维 > 数据建模,在下拉框中选择对应工作空间后单击进入数据建模

  2. 智能数据建模页面的顶部菜单栏,单击数据标准,进入数据标准页面。

数据标准:字段标准

字段标准是对字段的标准定义,包括字段命名、数据类型、取值范围等内容的规范定义。字段标准可将多个表中含义相同但字段名不同的内容进行关联,后期字段标准发生变化时,可快速定位和变更关联的表。

层级关系说明

  • 字段标准在创建时需要放在根目录、目录或标准集下方,相关说明如下。

    • 根目录:目录中最顶级的目录,所有的目录、标准集、标准只能放置在根目录下。

    • 目录:用于存放标准和标准集,类似操作系统的文件夹目录。

    • 标准集:和目录类似,但标准集内只能存放标准。

  • 字段标准之间可存在继承关系,如买家ID标准和卖家ID标准均可继承于会员ID标准。

定义字段标准

说明

当您需要录入大量字段标准时,可使用批量导入方式快捷操作。

  1. 数据标准页面左侧导航栏,单击字段标准,进入字段标准页面。

  2. 在左侧目录树,右键单击目标目录或标准集,选择新建标准。

    您可按需创建目录或标准集组织您的字段标准。
  3. 在弹出的新建标准对话框中,关键参数如下。

    参数项

    参数描述

    英文缩写

    当您关联逻辑模型的字段之后,将是关联字段的字段名称

    中文名称

    当您关联逻辑模型的字段之后,将是关联字段的字段显示名

    长度

    数据类型关联参数。

    例如,选择DECIMAL类型,则长度对应DECIMAL(20,4)中的20。

    精度

    数据类型关联参数。

    例如,选择DECIMAL类型,则长度对应DECIMAL(20,4)中的4。

    非空

    引用该标准的字段值是否可以为空。默认为空。

    默认值

    引用该标准的字段值未填写时的默认值。最大长度不可超过2048个字符。

    父级标准

    可选择已创建的标准作为父级标准,选择后与该标准产生继承关系,帮助您更好地识别字段的关联关系。

    例如,买家ID卖家ID均属于会员ID,则买家ID标准卖家ID标准的父级标准就是会员ID标准

    引用代码

    您可从已创建的标准代码中,引用指数据标准:标准代码来约束字段的取值范围。

    重要

    当您需要删除字段标准时,需先删除对应的引用关系。

使用字段标准

您可使用字段标准定义逻辑模型具体字段,支持贴源表维度表明细表汇总表应用表。例如,在会员信息维度表dim_ec_con_member_df中的会员ID字段关联字段标准member_id。此时,您的字段名称将取自该字段标准的英文缩写,字段显示名将取自该字段标准的中文名称类型非空属性也将直接继承。具体操作可参见设置维度表字段信息

image

数据标准:标准代码

标准代码用于定义字段的取值范围。在标准代码中,可以设置某一字段的可选数据内容及其范围。

定义标准代码

说明

当您需要录入大量标准代码时,可使用批量导入方式快捷操作。

  1. 数据标准页面的左侧导航栏,单击标准代码,进入标准代码页面。

  2. 右键单击已创建的目录名称,单击新建标准代码

    您可按需创建目录组织您的标准代码。
  3. 在弹出的新建标准代码对话框,配置如下参数并添加枚举值。

    例如,代码编号为gender,代码名称为性别, 英文名称为gender。枚举值如下。

    编码取值

    编码名称

    英文名称

    编码含义

    0

    未知

    unknown

    未知性别

    1

    male

    男性

    2

    female

    女性

    重要

    当您需要删除标准代码时,需先删除对应的引用关系。

发布标准代码

您可在标准代码详情页的右上角单击发布,即可将标准代码物理化发布成物理表或者物化视图。

使用标准代码

您可使用标准代码定义逻辑模型具体字段,支持贴源表维度表明细表。例如,在会员信息维度表dim_ec_con_member_df中的gender字段关联标准代码gender。此时,您的字段名称将取自该标准代码的代码编号,字段显示名将取自该字段标准的代码名称。具体操作可参见设置维度表字段信息

image

若同一个字段存在多张表却呈现不同字段名称时,关联标准代码可直接将字段修正统一。

表名

原始字段

原始枚举值

标准化后字段

标准化后枚举值

会员信息表

sex

1、2

gender

0、1、2

会员登录表

gender

0、1、2

基于标准代码落标

当逻辑模型明细表维度表发布成物理表时,表中关联标准代码的具体字段可生成质量规则。基于该质量规则创建质量监控,即可对物理表实现标准的监控和落地。具体操作,请参见数据落标

image

数据标准:度量单位

度量单位提供业务所涉及度量单位,包含货币单位、对象量词、时间单位等。

定义度量单位

说明

当您需要录入大量度量单位时,可使用批量导入方式快捷操作。

  1. 数据标准页面的左侧导航栏,单击度量单位,进入度量单位页面。

  2. 度量单位页面,右键单击目标度量类别,选择新建度量单位

    系统为您提供了货币单位对象量词比例单位排名单位时间单位度量类别。
  3. 在弹出的新建度量单位对话框中,配置参数后完成即可。

    例如,英文缩写为m,英文名称为meter,中文名称为,分类为对象量词

使用度量单位

关联逻辑模型

您可使用度量单位定义逻辑模型具体字段的度量单位,支持明细表汇总表应用表。例如,在订单创建明细事实表dwd_trade_order中的商品件数字段关联度量单位。具体操作可参见设置明细表字段信息

image

关联原子指标

定义原子指标值,可基于原子指标的统计数据类型,选择合适的度量单位。例如,统计支付金额,则可选择货币单位元(人民币)

image

数据标准:命名词典

命名词典提供业务名词、物理表、字段的词根词素及其标准化翻译功能,可理解成您的企业级命名规范库。

定义命名词典

说明

当您需要录入大量命名词典时,可使用批量导入方式快捷操作。

  1. 数据标准页面的左侧导航栏,单击命名词典,进入命名词典页面。

  2. 单击新建,在新建命名词典对话框配置参数,完成参数配置后单击确定

    例如,中文名称为发动机,英文名称为engine,英文缩写为eng.

使用命名词典

您可将命名词典用于数仓分层中检查表名的规范性,支持贴源表维度表明细表汇总表应用表。例如,若不存在英文缩写为trade的命名词典,那么dwd_trade_order将不符合明细数据表DWD层的表命名规范。

image

具体操作请在数仓规划中的数据分层检查器配置中选择使用,详情请参见配置及使用数仓分层检查器

更多操作

批量导入数据标准

如您有大量数据标准待创建,则可选择批量导入。DataWorks为您提供了导入模板,您可按照模板表格填写好后批量导入。

  1. 数据标准页面的左侧导航栏,单击命名词典,进入命名词典页面。

    字段标准和标准代码详情页均提供导入导出按钮。
  2. 单击导入,跳转至导入专用页面,并选择导入类型

  3. 模版预览处单击下载模版,按照模版填写好相应字段。

  4. 单击下一步,在数据导入页签上传并预览数据文件。

    说明
    • 导入模式:当DataWorks中已存在导入文件的同名对象,则导入时可选择跳过该对象,或使用此次导入的文件内容覆盖该对象。

    • 批量导入仅支持导入.xlsx格式文件,每次最多可导入30000条数据,并且文件大小不超过10MB。

  5. 完成页签,您可查看导入结果详情。单击详情列表后的更多详情,即可跳转至编辑界面,执行更多相关操作。当导入状态为失败时,您需根据报错详情处理异常并重新导入。

批量导出数据标准

当您需要跨工作空间复用时,可使用导出功能批量导出数据标准。您可在字段标准标准代码命名词典详情页找到导出按钮,直接点击即可。

上一篇: 系统管理 下一篇: 维度建模
阿里云首页 大数据开发治理平台 DataWorks 相关技术圈