贴源表用于接收并处理需要存储至数据仓库系统的原始数据,其数据表的结构与原始数据所在的数据系统中的表结构一致,是数据仓库的数据准备区。贴源表的命名必须以ods开头。本文为您介绍如何创建贴源表。
前提条件
步骤一:创建贴源表
进入智能数据建模页面。
登录DataWorks控制台,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据建模。
单击顶部菜单栏的维度建模,鼠标悬停至维度建模的图标,选择创建贴源表。
配置贴源表的基本信息。
根据业务需求配置如下信息。主要参数说明如下。
参数项
描述
数仓分层
仅支持选择贴源层,即数据引入层。
业务分类
贴源表所属的业务分类。用于对贴源表数据进行业务区分,更加方便管理业务数据。
数据域
贴源表所属的数据域,定义贴源表所统计数据的细分业务类型。一个数据域对应一个宏观分析领域,例如,采购域、供应链域。
存储策略
定义贴源表存储数据的时间周期及数据量范围。
表名规则
通过已配置的检查器规范贴源表的命名规则。选择检查器后,该贴源表的表名需按照检查器定义的规则配置。
说明配置检查器,详情请参见配置及使用数仓分层检查器。
表名
贴源表的名称。若您配置了表名规则,则贴源表的表名需遵循规则要求。
表中文名
贴源表的显示名称。
生命周期
贴源表保留的时间周期。最大可保留36000天。
负责人
贴源表的责任人。默认为创建表的用户。
表类型
当前仅支持普通贴源表。
配置完成后,单击保存,贴源表创建成功。
贴源表创建成功后,将作为维度建模的模型使用。在维度建模左侧目录树相应的数据域或业务分类下,可查找并统一管理模型。创建完成后,您需参考下文为模型添加字段并设置字段信息。
步骤二:添加字段
模型创建成功后,您需要为模型添加字段。当前支持通过快捷模式或代码模式添加。
快捷模式
快捷模式支持从表或视图导入,即从计算引擎已存在的物理表或视图导入字段。
当前仅支持从MaxCompute、Hologres、E-MapReduce引擎的表或视图导入。
查找表或视图。
在查找已有表/视图找到指定引擎的目标表或视图。
说明输入名称时支持模糊匹配,即输入关键字便可搜索到所有名称中包含关键字的表或视图。
仅支持搜索生产环境的表,不支持搜索开发环境的表。
导入字段。
根据需要选择导入表或视图的全部字段或部分字段。
图标表示导入全部字段。
图标表示导入部分字段。
选择导入部分字段时,会在弹出的对话框为您展示所选表或视图的全部字段,您可勾选所需字段并导入至贴源表。
说明若已导入字段包含字段显示名为空的字段,您可根据界面提示将字段描述填充为字段显示名。
代码模式
代码模式为您提供代码输入的操作方式,选择代码模式后,会根据您已配置的模型信息自动生成建模语言,您可在此基础上修改模型信息。
FML是适用于维度建模领域的类SQL语言,详情请参见代码模式建模。
DataWorks为您提供了不同引擎的多种类型语句,您可按需选择合适语句编辑模型信息。其中:
FML快捷方式仅用于快速创建列。支持的列类型包括STRING、BIGINT、DATETIME、BOOLEAN、DOUBLE、DECIMAL。
MaxCompute Select:仅用于快速初始化列信息。
步骤三:配置字段信息
模型添加字段后,您可根据业务需求设置字段的关联字段、冗余字段等信息。
设置字段展示属性。
字段默认展示字段名称、类型、字段显示名、描述、主键、非空等基础属性。您可在已添加字段的右上方单击字段显示设置,自定义需要展示的字段属性。修改目标属性的取值前,需先将其展示。
设置字段的关联字段标准、关联标准代码。
用于为已添加字段选择关联的字段标准和标准代码,规范字段的取值内容及范围。
关联字段标准:统一规范管理含义相同但字段名称不同的数据,定义字段的取值范围、度量单位等内容。
关联标准代码:设置某一字段标准可选择数据的内容及范围。
设置字段的冗余字段。
传统维度建模星型模型中,维度存储在维度表中,通过事实表的外键获取维度,目的是为了减少存储消耗。而在维度模型设计中,为了提高下游的查询效率,降低数据获取的复杂性,减少关联表的数量,通常事实表中会冗余常用的维度。例如,“订单创建明细表”冗余了“收货地址维度表”中的“收货地址”维度,包含“收货人地址、收货人手机号”等维度属性。
通常,若某字段同时被多个表使用,且该字段查询频繁而更新稀少,则可考虑将其冗余到其他表中。在已添加字段的操作列,单击冗余字段,即可设置字段的关联字段。
设置后单击工具栏的保存,模型字段配置完成。
后续步骤
模型创建完成后,您需将该模型物化至所需物理引擎,用于后续计算引擎进行数据开发、数据分析等操作。详情请参见发布模型至引擎。