本文以实现构建数据标准来设计数据模型,并通过规范化的流程,下发模型至计算引擎为例,为您介绍DataWorks数据建模的流程。
前提条件
如果您使用的是阿里云主账号,请下载建模工具。如果您使用的是RAM用户,请完成授权并下载建模工具。详情请参见用户授权与管理和下载建模工具(DDM)。
背景信息
DataWorks接入数据建模前,主要集中于数据开发中和开发后的治理。而数据建模新增定义数据形态的流程,为您提供一站式的模型管理解决方案和数据开发前的治理能力。在数据建模时,您可以根据对业务流程的理解和需求的调研,定义企业的业务标准和规范。同时,基于数据标准进行引用和实行,生成表结构,实现模型的统一管理。
创建数据标准
开始数据建模前,企业的数据管理者(空间管理员)需要为企业批量定义数据标准,以便标准化后续的数据建模工作流程。
空间管理员根据企业的实际情况和数据标准模板中的格式,为实际的业务场景中涉及的相关实体定义数据标准。
进入DataWorks数据建模页面。
进入数据开发页面。
登录DataWorks控制台,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
单击左上方的图标,选择 。
导入数据标准。
在数据建模页面的顶部菜单栏,单击数据标准。
单击右上方的批量导入。
在打开对话框中,选中本地存放的数据标准文件,单击打开。
在DDM客户端同步DataWorks中导入的数据标准。
登录DDM客户端。
在顶部菜单栏中,单击模型。
在模型页面,单击数据标准。
在数据标准浏览器对话框中,单击同步更新。
同步成功后,您即可在DDM客户端查看到DataWorks中导入的数据标准。
创建数据模型
本文以直接导入示例模板为例进行操作。如果您需要创建数据模型,请参见管理表。
下载示例数据模型。
在DDM客户端的开始页面,DataWorks模型设计师角色单击打开。
在打开对话框中,选中保存在本地的示例数据模型。
单击打开,查看导入的数据模型。
修改数据模型
本步骤通过引用数据标准的方式,为您介绍如何修改一个数据模型中的字段。
DataWorks模型设计师角色设置数据标准的引用属性。
在DDM客户端的顶部菜单栏,单击模型。
在模型页面,单击选项。
在数据标准应用设置对话框中,选中数据类型和英文缩写(到字段名)。
设置后,您在引用数据标准时,数据类型、字段名称会沿用定义数据标准时定义的数据类型和字段名称。
在左侧的数据模型下,右键单击 ,选择跳到当前主题。
在右侧的数据视图页面,右键单击customer主题,选择编辑字段。
在字段编辑器对话框中,单击图标,在中文名处搜索数据标准的名称。
单击搜索到的数据标准名称,即可生成字段。
单击确定,保存修改的模型。
保存模型至模型库
数据模型编辑完成后,需要DataWorks模型设计师角色将其保存至模型库,以便在DataStudio中获取该模型,并进行发布等操作。
在DDM客户端的顶部菜单栏,模型设计师角色单击模型库。
在模型库页面,单击另存。
在模型浏览器对话框右上方的请选择项目空间下拉列表中,选择需要存放该模型的DataWorks工作空间。
在对话框下方重命名模型名称后,单击保存。
此处定义的模型名称会在DataWorks的
页面显示。设置已保存的模型为PROD状态。
在模型浏览器对话框中,右键单击保存的模型名称,选择属性。
在模型库模型属性对话框中,调整发布状态为PROD。
说明此处的PROD并不是将模型直接发布至生产环境计算引擎,是指在经过相关人员的评审后,该模型已具备上线的条件。
单击确定。
提交模型至开发环境计算引擎
保存数据模型后,DataWorks开发角色需要先提交数据模型至开发环境计算引擎。测试无误后,再发布至生产环境。
进入数据开发页面。
登录DataWorks控制台,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
查看数据模型。
在左侧导航栏,单击模型管理。
说明如果左侧导航栏未显示模型管理图标,您可在DataStudio界面左侧导航栏底部单击图标,进入个人设置页面设置DataStudio显示的功能模块。详情请参见个人设置。
在 sakila_MaxCompute_demo)。 的右上方,单击图标,即可显示已置为PROD状态的数据模型(示例为
展开该模型,并双击主题域下的Main,查看该数据模型的ER关系图。
提交数据模型。
在左侧的物理模型区域,选中 sakila_MaxCompute_demo中的所有表。
在主题域的ER关系图页面,单击图标。
在模型提交对话框中,根据向导配置各项参数。
在选择目标引擎区域,选择您需要提交表结构的目标引擎(引擎类型和引擎实例)。
单击下一步。
在引擎特性适配区域,确认相关信息。
如果MaxCompute开发环境项目中存在同名的表,本步骤会提醒您即将被删除的表。如果不存在同名的表,则本步骤的提示框中将不作相关提醒。
单击下一步。
在生成DDL区域,物理模型会被转换为实际下发至计算引擎中运行的DDL语句。
选中我确认上述DDL语句正确无误,继续提交并将DDL下发至开发环境引擎,单击提交。
DDL语句开始运行并提交至MaxCompute开发环境项目。如果本步骤过于消耗时间,您可以单击确定,直接关闭运行窗口,并在下一步操作中查看运行日志。
在物理模型页面下方,单击日志,查看模型的状态。单击刷新,即可更新模型的运行状态。
发布模型至生产环境计算引擎
提交数据模型至开发环境计算引擎后,DataWorks运维、部署或空间管理员角色可以发布该数据模型至生产环境计算引擎。
单击页面右上方的任务发布。
在创建发布包页面,选中相应模型并单击其操作列的查看,查看发布至生产环境的DDL语句。
确认需要发布的代码无误后,在创建发布包页面单击发布选中项,发布该数据模型至生产环境计算引擎。
返回 页面,选中该数据模型并单击日志,确认其发布状态为成功。
验证发布结果。
在DataStudio页面,创建一个ODPS SQL节点。详情请参见开发ODPS SQL任务。
打开ODPS SQL节点的编辑页面,运行
show tables
。在运行日志中,通过Ctrl+F搜索customer。
您还可以运行DESC语句,确认表结构是否符合预期。