数仓规划是基于Dataphin建设数据中台的第一步,同时也是数据体系的顶层设计中至关重要的一步。在开始数据开发前,需要完成数据仓库的规划,包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。
背景信息
数据板块:数据板块是逻辑空间的重要组成部分,是基于业务特征划分的命名空间。 本教程以dataphin_tutorial为例,作为数据板块的命名空间。
计算源:为数据的处理提供计算及存储资源。
项目:项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。本教程以dataphin_tutorial为例,作为项目名称。
数据源:业务数据中读取原始数据和写入数据仓库过程中的数据。
步骤一:创建数据板块
在Dataphin首页的顶部菜单栏中,选择规划 > 数据架构。
在数据板块页面,单击+新建数据板块。
在新建数据板块对话框的生产开发类型步骤中选择Basic模式并单击下一步。
在板块定义中,配置板块的基础信息与业务信息。
参数
描述
板块英文名
输入为dataphin_tutorial。
板块名称
输入为入门教程。
描述信息(非必填)
输入简单的描述。例如,入门教程。
图标
选择图标。
板块架构师
选择一个或多个成员,负责板块信息设置,包括基本信息更新、业务信息更新、单元管理等。
业务负责人(非必选)
为板块数据的业务使用稳定性负责,可根据需要进行选择。
数据负责人(非必选)
为板块数据生产质量保障负责,可根据需要进行选择。
单击下一步,配置逻辑表命名规范。新建逻辑表时,系统基于逻辑表命名规范自动预生成推荐的逻辑表名称,您可以编辑为其他任意名称,当前可使用默认设置。
说明数据板块创建后,可以在数据板块的研发规范 > 表规范 > 逻辑表命名规范进行编辑。修改表前缀将对同一个逻辑表大类的全部子类型生效。例如,修改维度逻辑表大类,将对普通维度逻辑表、层级维度逻辑表等子类型生效。
单击确定,完成数据板块的创建。
数据板块各参数配置详情请参见创建数据板块。
步骤二:创建MaxCompute计算源
在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。
在计算源页面单击新增计算源,选择MaxCompute计算源。
在新建MaxCompute计算源页面中,配置参数。
参数
描述
计算源类型
选择MaxCompute。
Endpoint
默认为Dataphin实例计算引擎的Endpoint,不支持修改。
AccessKey ID
访问密钥中的AccessKey ID,可以通过用户信息管理页面获取。
AccessKey Secret
访问密钥中的AccessKey Secret,可以通过用户信息管理页面获取。
MaxCompute项目
输入dataphin_tutorial(在阿里云创建的MaxCompute(ODPS)项目名称)。
外部项目
不选择此项。
计算源名称
输入dataphin_tutorial。
描述
输入dataphin_tutorial项目的离线计算源。
单击校验并提交,完成项目计算源的创建。
计算源各参数配置详情请参见新建MaxCompute计算源。
步骤三:创建项目
在Dataphin首页的顶部菜单栏中,选择规划 > 项目。
在项目管理页面单击新建通用项目,在生产开发类型步骤中选择Basic模式后,单击下一步。
在项目定义步骤中,配置归属板块、基本信息、业务信息、安全设置、更多设置。
参数
描述
数据板块
选择dataphin_tutorial。
项目英文名
输入dataphin_tutorial。
项目名称
输入dataphin_tutorial。
计算源类型
离线引擎:开启离线引擎并选择MaxCompute。如下图所示:
MAXC:选择在MaxCompute创建的dataphin_tutorial计算源。
项目默认资源组:该项目下任务生成的实例调度默认使用的资源组,可在任务配置时自定义修改单个任务对应的资源组,仅支持选择已关联可使用的资源组。可选择租户默认资源组或新建资源组,新建资源组详情请参见新建自定义资源组。
空间类型
选择通用层。
说明空间类型可选择应用层、中间层、贴源层、通用层。
应用层(ADS):面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标。
中间层(CDM):经过加工、清洗、汇总后的数据。
贴源层(ODS):是在STG层数据加工汇总后形成的业务系统的原始数据。
通用层:一般用于通用任务或者同时做多种类型的任务开发。
安全设置
使用默认配置。
更多设置
使用默认配置。
单击确定,完成项目的创建。
项目各参数配置详情请参见创建通用项目。
步骤四:创建源数据源
在Dataphin首页的顶部菜单栏中,选择管理中心 > 数据源管理。
在数据源页面单击+新建数据源,在关系型数据源区域中选择MySQL。
在新建MySQL数据源对话框中,配置数据源信息。
参数
描述
数据源名称
输入为dataphin_tutorial。
版本
选择为MySQL8。
数据源描述(非必填)
填写数据源简单描述。例如,入门教程的源数据。
数据源配置
选择“生产”数据源。
标签(非必填)
默认不填。
JDBC URL
输入格式为
jdbc:mysql://host:port/dataphin
。host:port
信息可以登录MySQL实例详情页进行查看。如下图所示:用户名、密码
输入为dataphin。
SSL加密
若您的MySQL数据源已配置SSL加密,您可以选择开启并上传Truststore证书和填写Truststore证书密码进行加密传输。
高级设置
使用默认配置。
单击测试连接。
连通性测试通过后,单击确定,完成数据源的创建。
数据源各参数配置详情请参见创建MySQL数据源。