创建逻辑模型:贴源表

贴源表用于接收并处理需要存储至数据仓库系统的原始数据,其数据表的结构与原始数据所在的数据系统中的表结构一致,是数据仓库的数据准备区。贴源表的命名必须以ods开头。本文为您介绍如何创建贴源表。

前提条件

  • 已创建数据引入层。贴源表仅支持挂载至数据引入层下。创建数据引入层,详情请参见创建数仓分层

  • 已创建数据域,用于确定贴源表所统计的业务数据视角。创建数据域,详情请参见数据域

步骤一:创建贴源表

  1. 进入智能数据建模页面。

    登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据建模,在下拉框中选择对应工作空间后单击进入数据建模

  2. 单击顶部菜单栏的维度建模,鼠标悬停至维度建模的image.png图标,选择创建贴源表

  3. 配置贴源表的基本信息。

    根据业务需求配置如下信息。image.png主要参数说明如下。

    参数项

    描述

    数仓分层

    仅支持选择贴源层,即数据引入层。

    业务分类

    贴源表所属的业务分类。用于对贴源表数据进行业务区分,更加方便管理业务数据。

    数据域

    贴源表所属的数据域,定义贴源表所统计数据的细分业务类型。一个数据域对应一个宏观分析领域,例如,采购域、供应链域。

    存储策略

    定义贴源表存储数据的时间周期及数据量范围。

    表名规则

    通过已配置的检查器规范贴源表的命名规则。选择检查器后,该贴源表的表名需按照检查器定义的规则配置。

    说明

    配置检查器,详情请参见配置及使用数仓分层检查器

    表名

    贴源表的名称。若您配置了表名规则,则贴源表的表名需遵循规则要求。

    表中文名

    贴源表的显示名称。

    生命周期

    贴源表保留的时间周期。最大可保留36000天。

    负责人

    贴源表的责任人。默认为创建表的用户。

    表类型

    当前仅支持普通贴源表。

  4. 配置完成后,单击保存,贴源表创建成功。

    贴源表创建成功后,将作为维度建模的模型使用。在维度建模左侧目录树相应的数据域或业务分类下,可查找并统一管理模型。创建完成后,您需参考下文为模型添加字段并设置字段信息。

步骤二:添加字段

模型创建成功后,您需要为模型添加字段。当前支持通过快捷模式代码模式添加。

快捷模式

快捷模式支持从表或视图导入,即从计算引擎已存在的物理表或视图导入字段。

说明

当前仅支持从MaxCompute、Hologres、E-MapReduce引擎的表或视图导入。

image.png
  1. 查找表或视图。

    查找已有表/视图找到指定引擎的目标表或视图。

    说明
    • 输入名称时支持模糊匹配,即输入关键字便可搜索到所有名称中包含关键字的表或视图。

    • 仅支持搜索生产环境的表,不支持搜索开发环境的表。

  2. 导入字段。

    根据需要选择导入表或视图的全部字段或部分字段。

    • 导入全部字段图标表示导入全部字段。

    • 部分字段图标表示导入部分字段。

    选择导入部分字段时,会在弹出的对话框为您展示所选表或视图的全部字段,您可勾选所需字段并导入至贴源表。

    说明

    若已导入字段包含字段显示名为空的字段,您可根据界面提示将字段描述填充为字段显示名。

代码模式

代码模式为您提供代码输入的操作方式,选择代码模式后,会根据您已配置的模型信息自动生成建模语言,您可在此基础上修改模型信息。

说明

FML是适用于维度建模领域的类SQL语言,详情请参见代码模式建模

image.png

DataWorks为您提供了不同引擎的多种类型语句,您可按需选择合适语句编辑模型信息。其中:

  • FML快捷方式仅用于快速创建列。支持的列类型包括STRING、BIGINT、DATETIME、BOOLEAN、DOUBLE、DECIMAL。

  • MaxCompute Select:仅用于快速初始化列信息。

步骤三:配置字段信息

模型添加字段后,您可根据业务需求设置字段的关联字段冗余字段等信息。

  1. 设置字段展示属性。

    字段默认展示字段名称类型字段显示名描述主键非空等基础属性。您可在已添加字段的右上方单击字段显示设置,自定义需要展示的字段属性。修改目标属性的取值前,需先将其展示。

  2. 设置字段的关联字段标准关联标准代码

    用于为已添加字段选择关联的字段标准和标准代码,规范字段的取值内容及范围。

    • 关联字段标准:统一规范管理含义相同但字段名称不同的数据,定义字段的取值范围、度量单位等内容。

    • 关联标准代码:设置某一字段标准可选择数据的内容及范围。

  3. 设置字段的冗余字段

    传统维度建模星型模型中,维度存储在维度表中,通过事实表的外键获取维度,目的是为了减少存储消耗。而在维度模型设计中,为了提高下游的查询效率,降低数据获取的复杂性,减少关联表的数量,通常事实表中会冗余常用的维度。例如,“订单创建明细表”冗余了“收货地址维度表”中的“收货地址”维度,包含“收货人地址、收货人手机号”等维度属性。

    通常,若某字段同时被多个表使用,且该字段查询频繁而更新稀少,则可考虑将其冗余到其他表中。在已添加字段的操作列,单击冗余字段,即可设置字段的关联字段。

    冗余字段
  4. 设置后单击工具栏的保存,模型字段配置完成。

后续步骤

模型创建完成后,您需将该模型物化至所需物理引擎,用于后续计算引擎进行数据开发、数据分析等操作。详情请参见发布模型至引擎