逆向建模:物理表反向建模

当您的物理引擎中已有大量物理表,且希望通过DataWorks智能数据建模产品统一管理所有模型,则可使用逆向建模功能,将已有物理表反向建模至DataWorks的维度建模中。该功能帮助您无需再次执行建模操作即可快速创建模型,节省了大量的时间成本。本文为您介绍如何进行逆向建模。

前提条件

  • 物理引擎中已有大量物理表,同时,物理引擎已在目标DataWorks工作空间创建数据源。创建数据源的更多详情,请参见创建并管理数据源

  • 已创建数仓分层,用于确定模型所属的层级。详情请参见创建数仓分层

  • 公共层用于加工、整合贴源层输入的公共数据,建立统一的指标维度,构建可复用面向分析和统计的明细事实数据和汇总数据;应用层基于实际应用需求,获取公共层加工整合后的数据,面向具体应用场景或指定产品进行的个性化数据统计。

    创建的模型可归属于公共层应用层,不同层级归属需单独完成如下准备:

    • 公共层

      • 已创建数据域,用于确定模型所统计的业务数据范围。详情请参见数据域

      • 已创建业务过程,用于确定模型所统计分析的具体业务活动。详情请参见业务过程

    • 应用层

      • 已创建数据集市,用于确定模型所统计的特定应用场景或产品的数据类别。详情请参见数据集市

      • 已创建主题域,用于确定模型所统计的特定业务数据主题。详情请参见主题域

使用限制

当前仅支持对MaxCompute、EMR Hive引擎中生产环境的表进行逆向建模。

建模流程

逆向建模主要用于将大数据引擎中已经存在的物理表反向建模至DataWorks的维度建模中,其建模流程如下:逆向建模流程

  1. 配置逆向建模策略。

    • 建模范围:创建模型前,您需要根据业务需求确定需要将哪些表逆向生成模型。

      该过程需确定表所在的工作空间、引擎实例,以及使用精准名称还是关键字匹配表名,匹配到的表后续将会被逆向生成相应模型。

    • 建模规则:确定逆向创建的模型所属的分层及命名规范。

      该过程您可使用检查器或自定义方式规范模型名称。统一同一分层中模型的命名格式,便于通过名称即可了解该模型所属的业务类型、数据粒度等信息。模型名称检查器详情,请参见配置及使用数仓分层检查器

    • 建模执行方式:确定建模时是全量新建目标模型,还是仅创建维度建模中不存在的目标模型。

    说明

    逆向建模为不可逆操作,创建逆向策略并使用该策略生成模型后,该策略则不可被更改,请您根据实际业务需求提前做好策略规划。

    详情请参见配置逆向建模策略

  2. 解析并匹配模型。

    DataWorks会根据您配置的建模策略进行解析,匹配出待创建的模型。

  3. 确认模型信息。

    DataWorks初步生成的表模型可能会存在偏差,您需要根据业务需求进行模型信息的调整。例如,更改表所在的数据域业务过程等模型基础信息。详情请参见确认模型信息

  4. 生成最终模型。

    建模完成后,您可查看生成的模型信息及状态。查看建模失败的模型错误信息,快速定位问题并及时处理。

    说明
    • 建模成功的模型已被物化至相应引擎,您无需再进行发布。

    • 建模成功的模型会被存放至维度建模中,您可以进入维度建模页面查看并进行后续的管理操作,详情请参见模型管理

操作步骤

  1. 进入逆向建模

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据建模,在下拉框中选择对应工作空间后单击进入数据建模

    2. 智能数据建模页面顶部导航栏,单击维度建模,进入维度建模页面。

    3. 维度建模页面的左侧导航栏,单击逆向建模,进入逆向建模页面。

  2. 启动建模。

    • 首次使用逆向建模,请单击逆向建模界面中间的快速开始,启动建模。

    • 非首次使用逆向建模,请单击建模列表右上角的开始逆向建模,启动建模。

  3. 配置逆向策略。

    说明

    逆向建模为不可逆操作,创建逆向策略并使用该策略生成模型后,该策略则不可被更改,请您根据实际业务需求提前做好策略规划。

    1. 配置策略信息。

      逆向策略

      参数

      描述

      项目空间

      选择待逆向建模的表所在的DataWorks工作空间。

      说明

      仅支持选择当前登录用户所在的DataWorks工作空间(即该用户为工作空间成员)。如果您需要选择目标DataWorks工作空间,则可添加用户为工作空间成员,详情请参见空间级模块权限管控

      引擎类型

      当前仅支持逆向建模MaxCompute、EMR Hive引擎中生产项目的物理表。

      引擎实例

      选择待逆向建模的表所在的引擎实例。

      表名匹配规则

      选择使用英文名称的关键字或精准全称在目标引擎中匹配相应表,后续会对匹配结果进行逆向建模。匹配方式如下:

      • 模糊匹配:输入关键词,即可匹配到名称中包含该关键词的所有表。

      • 精准匹配:输入的表名称为表的精准全称。

      说明
      • 多个表名称之间使用英文分号(;)分隔,并且英文分号(;)后不能添加空格。

      • 若未匹配到任何满足条件的表,则此次逆向建模失败,即不会生成任何模型。

      逆向后模型所在数据分层

      • 公共层:创建明细表、维度表、汇总表时,可选择该层级。

      • 应用层:创建应用表、维度表时,可选择该层级。

      表命名规范

      用于解析通过表名匹配规则匹配到的表名称,来规范逆向建模后的模型名称,并将模型挂载至相应的数仓层级下。具体如下:

      • 解析规则

        • 解析匹配到的表名称及下划线个数。

          表名称最多可包含9个下划线,每两个下划线之间可选择配置为业务过程数据域自定义内容等信息。

        • 当识别到表名称包含对应数仓层级时,则该表逆向生成的模型将挂载至对应的层级下。

        说明

        当识别到表名称中不存在对应的数据域业务过程等数仓层级时,则该模型的分层为空。您可在确认模型信息时修改相应模型所属的分层。

      • 解析方式

        • 表名检查器:选择已创建的检查器解析匹配到的表名称。创建检查器,详情请参见配置及使用数仓分层检查器

        • 自定义:通过自由组合业务过程数据域业务分类自定义内容等信息,解析匹配到的表名称。

      执行方式

      选择创建模型的方式:

      • 全量覆盖:DataWorks会将所有匹配到的表逆向创建至维度建模中。

        当您需要全量重新为匹配结果创建模型时,可选择该方式。

        说明

        如果维度建模中已存在匹配结果对应的模型,选择全量覆盖时会将原已存在的模型删除重建。

      • 增量更新:DataWorks会对匹配结果进行如下处理:

        1. 识别匹配结果在维度建模中是否已创建模型,并将已创建模型的表过滤。

        2. 将维度建模中未创建模型的匹配结果逆向建模至维度建模中。

        当您知晓部分匹配结果在维度建模中已创建模型,并且该匹配结果未改动,不希望重复创建时,可选择该方式。

    2. 单击开始创建模型,通过建模策略进行模型解析。

  4. 确认模型信息。

    1. 确认模型信息。

      DataWorks根据您配置的建模策略生成初步模型,您可结合实际需求,调整表类型,以及所属的数仓分层数据域等信息。同时,当目标表无需建模时,也可将其删除。确认模型信息

    2. 单击开始生成模型,生成模型。

  5. 查看建模结果。

    模型生成后,您可查看本次成功创建的各类型模型数量,以及建模失败的表详细信息,单击错误日志,即可快速定位问题原因并及时处理。

    说明
    • 建模成功的模型已被物化至相应引擎,您无需再进行发布。

    • 建模成功的模型会被存放至维度建模中,您可以进入维度建模页面查看并进行后续的管理操作,详情请参见模型管理

    生成模型

查看建模列表

逆向建模 > 建模列表页面,您可查看已创建任务的详细信息及操作日志。查看建模列表

区域

描述

1

在该区域,您可通过任务ID操作人操作日期进行筛选,查看指定条件的逆向建模任务。

2

在该区域,您可查看逆向建模任务的逆向规则、建模结果等详情。

  • 对于已执行的建模任务,单击日志查看即可查看任务的日志信息。

  • 对于未执行的建模任务,单击任务查看即可返回任务详情页继续执行任务。

后续步骤

逆向建模完成后,您可执行如下操作:

  • 进入维度建模页面的模型管理目录树,查看创建的模型。详情请参见发布模型至引擎

  • 进入数据开发页面,进行相关的数据开发操作。数据开发的功能介绍,详情请参见数据开发功能索引