入门实践

本文以实现构建数据标准来设计数据模型,并通过规范化的流程,下发模型至计算引擎为例,为您介绍DataWorks数据建模的流程。

前提条件

如果您使用的是阿里云主账号,请下载建模工具。如果您使用的是RAM用户,请完成授权并下载建模工具。详情请参见用户授权与管理下载建模工具(DDM)

背景信息

DataWorks接入数据建模前,主要集中于数据开发中和开发后的治理。而数据建模新增定义数据形态的流程,为您提供一站式的模型管理解决方案和数据开发前的治理能力。在数据建模时,您可以根据对业务流程的理解和需求的调研,定义企业的业务标准和规范。同时,基于数据标准进行引用和实行,生成表结构,实现模型的统一管理。

创建数据标准

开始数据建模前,企业的数据管理者(空间管理员)需要为企业批量定义数据标准,以便标准化后续的数据建模工作流程。

  1. 下载数据标准模板。您可以参考数据标准(通用)进行编辑。

  2. 空间管理员根据企业的实际情况和数据标准模板中的格式,为实际的业务场景中涉及的相关实体定义数据标准。

  3. 进入DataWorks数据建模页面。

    1. 进入数据开发页面。

      登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

    2. 单击左上方的图标图标,选择全部产品 > 数据建模 > DATABLAU

  4. 导入数据标准。

    1. 在数据建模页面的顶部菜单栏,单击数据标准

    2. 单击右上方的批量导入

      批量导入
    3. 打开对话框中,选中本地存放的数据标准文件,单击打开

  5. DDM客户端同步DataWorks中导入的数据标准。

    1. 登录DDM客户端。

    2. 在顶部菜单栏中,单击模型

    3. 模型页面,单击数据标准

      数据标准
    4. 数据标准浏览器对话框中,单击同步更新

      同步成功后,您即可在DDM客户端查看到DataWorks中导入的数据标准。同步更新

创建数据模型

本文以直接导入示例模板为例进行操作。如果您需要创建数据模型,请参见管理表

  1. 下载示例数据模型

  2. DDM客户端的开始页面,DataWorks模型设计师角色单击打开

    打开
  3. 打开对话框中,选中保存在本地的示例数据模型。

  4. 单击打开,查看导入的数据模型。

    导入模型

修改数据模型

本步骤通过引用数据标准的方式,为您介绍如何修改一个数据模型中的字段。

  1. DataWorks模型设计师角色设置数据标准的引用属性。

    1. DDM客户端的顶部菜单栏,单击模型

    2. 模型页面,单击选项

    3. 数据标准应用设置对话框中,选中数据类型英文缩写(到字段名)

      数据标准设置

      设置后,您在引用数据标准时,数据类型、字段名称会沿用定义数据标准时定义的数据类型和字段名称。

  2. 在左侧的数据模型下,右键单击 > customer,选择跳到当前主题

    跳到当前主题
  3. 在右侧的数据视图页面,右键单击customer主题,选择编辑字段

    编辑表
  4. 字段编辑器对话框中,单击新建图标,在中文名处搜索数据标准的名称。

    中文名
  5. 单击搜索到的数据标准名称,即可生成字段。

    字段
  6. 单击确定,保存修改的模型。

保存模型至模型库

数据模型编辑完成后,需要DataWorks模型设计师角色将其保存至模型库,以便在DataStudio中获取该模型,并进行发布等操作。

  1. DDM客户端的顶部菜单栏,模型设计师角色单击模型库

  2. 模型库页面,单击另存

    另存
  3. 模型浏览器对话框右上方的请选择项目空间下拉列表中,选择需要存放该模型的DataWorks工作空间。

    项目空间
  4. 在对话框下方重命名模型名称后,单击保存

    此处定义的模型名称会在DataWorksDataStudio > 模型管理页面显示。

  5. 设置已保存的模型为PROD状态。

    1. 模型浏览器对话框中,右键单击保存的模型名称,选择属性

      属性
    2. 模型库模型属性对话框中,调整发布状态PROD

      PROD
      说明

      此处的PROD并不是将模型直接发布至生产环境计算引擎,是指在经过相关人员的评审后,该模型已具备上线的条件。

    3. 单击确定

提交模型至开发环境计算引擎

保存数据模型后,DataWorks开发角色需要先提交数据模型至开发环境计算引擎。测试无误后,再发布至生产环境。

  1. 进入数据开发页面。

    登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 查看数据模型。

    1. 在左侧导航栏,单击模型管理

      说明

      如果左侧导航栏未显示模型管理图标,您可DataStudio界面左侧导航栏底部单击设置.png图标,进入个人设置页面设置DataStudio显示的功能模块。详情请参见个人设置

    2. 模型管理 > 物理模型的右上方,单击刷新图标,即可显示已置为PROD状态的数据模型(示例为 sakila_MaxCompute_demo)。

    3. 展开该模型,并双击主题域下的Main,查看该数据模型的ER关系图。

      ER
  3. 提交数据模型。

    1. 在左侧的物理模型区域,选中 sakila_MaxCompute_demo中的所有表。

    2. 在主题域的ER关系图页面,单击提交图标。

      提交
  4. 模型提交对话框中,根据向导配置各项参数。

    1. 选择目标引擎区域,选择您需要提交表结构的目标引擎(引擎类型引擎实例)。

    2. 单击下一步

    3. 引擎特性适配区域,确认相关信息。

      如果MaxCompute开发环境项目中存在同名的表,本步骤会提醒您即将被删除的表。如果不存在同名的表,则本步骤的提示框中将不作相关提醒。引擎特性适配

    4. 单击下一步

    5. 生成DDL区域,物理模型会被转换为实际下发至计算引擎中运行的DDL语句。

      生成DDL
    6. 选中我确认上述DDL语句正确无误,继续提交并将DDL下发至开发环境引擎,单击提交

      DDL语句开始运行并提交至MaxCompute开发环境项目。如果本步骤过于消耗时间,您可以单击确定,直接关闭运行窗口,并在下一步操作中查看运行日志。

  5. 物理模型页面下方,单击日志,查看模型的状态。单击刷新,即可更新模型的运行状态。

    日志

发布模型至生产环境计算引擎

提交数据模型至开发环境计算引擎后,DataWorks运维、部署或空间管理员角色可以发布该数据模型至生产环境计算引擎。

  1. 单击页面右上方的任务发布

    任务发布
  2. 创建发布包页面,选中相应模型并单击其操作列的查看,查看发布至生产环境的DDL语句。

    查看
  3. 确认需要发布的代码无误后,在创建发布包页面单击发布选中项,发布该数据模型至生产环境计算引擎。

  4. 返回DataStudio > 模型管理页面,选中该数据模型并单击日志,确认其发布状态为成功

  5. 验证发布结果。

    1. DataStudio页面,创建一个ODPS SQL节点。详情请参见开发ODPS SQL任务

    2. 打开ODPS SQL节点的编辑页面,运行show tables

    3. 运行日志中,通过Ctrl+F搜索customer

      运行日志

      您还可以运行DESC语句,确认表结构是否符合预期。desc