数据标准制定和使用
DataWorks数据建模支持在建模前规划制定数据标准,或在建模使用过程中根据业务情况沉淀企业业务的数据标准。通过规范约束标准代码、度量单位、字段标准、命名词典,来保障后续建模与应用过程中数据处理的一致性,从源头上保障数据的标准化生产,节约后续数据应用和处理的成本。
支持的数据标准
DataWorks支持的数据标准包含字段标准、标准代码、度量单位、命名词典。
字段标准
字段标准用于规范化定义字段的名称、数据类型、取值范围等信息。通过对含义相同的字段进行统一的标准化,可以避免由于名称或类型多样化而导致的混淆。例如,通过创建好字段标准member_id并在相应表中关联此标准,可确保所有会员ID字段的标准统一。
表名 | 原始字段 | 问题 | 标准化后字段 |
注册表 | user_id | 命名不一致 | member_id |
登录表 | userid | 无下划线,易歧义 |
标准代码
标准代码用于定义字段的取值范围。在标准代码中,可以设置某一字段的可选数据内容及其范围。例如,性别字段取值只有“男”、“女”和“未知”。
度量单位
度量单位提供业务所涉及度量单位,包含货币单位、对象量词、时间单位等。例如,商品数量的度量单位为件。
命名词典
命名词典提供业务名词、物理表、字段的词根和词素及其标准化翻译功能,可理解成您的企业级命名规范库。例如,衡量公司年度收入的标准叫法为年度总营业额。
数据标准关系图
此处关联指的是,将数据标准和逻辑模型中的具体字段联系在一起,具体字段将会遵守标准所制定的规范。
进入数据标准
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据建模。
在智能数据建模页面的顶部菜单栏,单击数据标准,进入数据标准页面。
数据标准:字段标准
字段标准是对字段的标准定义,包括字段命名、数据类型、取值范围等内容的规范定义。字段标准可将多个表中含义相同但字段名不同的内容进行关联,后期字段标准发生变化时,可快速定位和变更关联的表。
层级关系说明
字段标准在创建时需要放在根目录、目录或标准集下方,相关说明如下。
根目录:目录中最顶级的目录,所有的目录、标准集、标准只能放置在根目录下。
目录:用于存放标准和标准集,类似操作系统的文件夹目录。
标准集:和目录类似,但标准集内只能存放标准。
字段标准之间可存在继承关系,如买家ID标准和卖家ID标准均可继承于会员ID标准。
定义字段标准
当您需要录入大量字段标准时,可使用批量导入方式快捷操作。
在数据标准页面左侧导航栏,单击字段标准,进入字段标准页面。
在左侧目录树,右键单击目标目录或标准集,选择新建标准。
您可按需创建目录或标准集组织您的字段标准。
在弹出的新建标准对话框中,关键参数如下。
参数项
参数描述
英文缩写
当您关联逻辑模型的字段之后,将是关联字段的字段名称。
中文名称
当您关联逻辑模型的字段之后,将是关联字段的字段显示名。
长度
数据类型关联参数。
例如,选择DECIMAL类型,则长度对应DECIMAL(20,4)中的20。
精度
数据类型关联参数。
例如,选择DECIMAL类型,则长度对应DECIMAL(20,4)中的4。
非空
引用该标准的字段值是否可以为空。默认为空。
默认值
引用该标准的字段值未填写时的默认值。最大长度不可超过2048个字符。
父级标准
可选择已创建的标准作为父级标准,选择后与该标准产生继承关系,帮助您更好地识别字段的关联关系。
例如,买家ID和卖家ID均属于会员ID,则买家ID标准和卖家ID标准的父级标准就是会员ID标准。
引用代码
您可从已创建的标准代码中,引用指数据标准:标准代码来约束字段的取值范围。
重要当您需要删除字段标准时,需先删除对应的引用关系。
使用字段标准
您可使用字段标准定义逻辑模型具体字段,支持贴源表、维度表、明细表、汇总表、应用表。例如,在会员信息维度表dim_ec_con_member_df中的会员ID字段关联字段标准member_id。此时,您的字段名称将取自该字段标准的英文缩写,字段显示名将取自该字段标准的中文名称,类型和非空属性也将直接继承。具体操作可参见设置维度表字段信息。
数据标准:标准代码
标准代码用于定义字段的取值范围。在标准代码中,可以设置某一字段的可选数据内容及其范围。
定义标准代码
当您需要录入大量标准代码时,可使用批量导入方式快捷操作。
在数据标准页面的左侧导航栏,单击标准代码,进入标准代码页面。
右键单击已创建的目录名称,单击新建标准代码。
您可按需创建目录组织您的标准代码。
在弹出的新建标准代码对话框,配置如下参数并添加枚举值。
例如,代码编号为gender,代码名称为性别, 英文名称为gender。枚举值如下。
编码取值
编码名称
英文名称
编码含义
0
未知
unknown
未知性别
1
男
male
男性
2
女
female
女性
重要当您需要删除标准代码时,需先删除对应的引用关系。
发布标准代码
您可在标准代码详情页的右上角单击发布,即可将标准代码物理化发布成物理表或者物化视图。
使用标准代码
您可使用标准代码定义逻辑模型具体字段,支持贴源表、维度表、明细表。例如,在会员信息维度表dim_ec_con_member_df中的gender字段关联标准代码gender。此时,您的字段名称将取自该标准代码的代码编号,字段显示名将取自该字段标准的代码名称。具体操作可参见设置维度表字段信息。
若同一个字段存在多张表却呈现不同字段名称时,关联标准代码可直接将字段修正统一。
表名 | 原始字段 | 原始枚举值 | 标准化后字段 | 标准化后枚举值 |
会员信息表 | sex | 1、2 | gender | 0、1、2 |
会员登录表 | gender | 0、1、2 |
基于标准代码落标
当逻辑模型明细表、维度表发布成物理表时,表中关联标准代码的具体字段可生成质量规则。基于该质量规则创建质量监控,即可对物理表实现标准的监控和落地。具体操作,请参见数据落标。
数据标准:度量单位
度量单位提供业务所涉及度量单位,包含货币单位、对象量词、时间单位等。
定义度量单位
当您需要录入大量度量单位时,可使用批量导入方式快捷操作。
在数据标准页面的左侧导航栏,单击度量单位,进入度量单位页面。
在度量单位页面,右键单击目标度量类别,选择新建度量单位。
系统为您提供了货币单位、对象量词、比例单位、排名单位、时间单位度量类别。
在弹出的新建度量单位对话框中,配置参数后完成即可。
例如,英文缩写为m,英文名称为meter,中文名称为米,分类为对象量词。
使用度量单位
关联逻辑模型
您可使用度量单位定义逻辑模型具体字段的度量单位,支持明细表、汇总表、应用表。例如,在订单创建明细事实表dwd_trade_order中的商品件数字段关联度量单位件。具体操作可参见设置明细表字段信息。
关联原子指标
定义原子指标值,可基于原子指标的统计数据类型,选择合适的度量单位。例如,统计支付金额,则可选择货币单位的元(人民币)。
数据标准:命名词典
命名词典提供业务名词、物理表、字段的词根和词素及其标准化翻译功能,可理解成您的企业级命名规范库。
定义命名词典
当您需要录入大量命名词典时,可使用批量导入方式快捷操作。
在数据标准页面的左侧导航栏,单击命名词典,进入命名词典页面。
单击新建,在新建命名词典对话框配置参数,完成参数配置后单击确定。
例如,中文名称为发动机,英文名称为engine,英文缩写为eng.。
使用命名词典
您可将命名词典用于数仓分层中检查表名的规范性,支持贴源表、维度表、明细表、汇总表、应用表。例如,若不存在英文缩写为trade的命名词典,那么dwd_trade_order将不符合明细数据表DWD层的表命名规范。
具体操作请在数仓规划中的数据分层检查器配置中选择使用,详情请参见配置及使用数仓分层检查器。
更多操作
批量导入数据标准
如您有大量数据标准待创建,则可选择批量导入。DataWorks为您提供了导入模板,您可按照模板表格填写好后批量导入。
在数据标准页面的左侧导航栏,单击命名词典,进入命名词典页面。
字段标准和标准代码详情页均提供导入导出按钮。
单击导入,跳转至导入专用页面,并选择导入类型。
在模版预览处单击下载模版,按照模版填写好相应字段。
单击下一步,在数据导入页签上传并预览数据文件。
说明导入模式:当DataWorks中已存在导入文件的同名对象,则导入时可选择跳过该对象,或使用此次导入的文件内容覆盖该对象。
批量导入仅支持导入
.xlsx
格式文件,每次最多可导入30000条数据,并且文件大小不超过10MB。
在完成页签,您可查看导入结果详情。单击详情列表后的更多详情,即可跳转至编辑界面,执行更多相关操作。当导入状态为失败时,您需根据报错详情处理异常并重新导入。
批量导出数据标准
当您需要跨工作空间复用时,可使用导出功能批量导出数据标准。您可在字段标准、标准代码和命名词典详情页找到导出按钮,直接点击即可。