数仓规划是基于Dataphin建设数据中台的第一步,同时也是数据体系的顶层设计中至关重要的一步。在开始数据开发前,需要完成数据仓库的规划,包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。
背景信息
数据板块:数据板块是逻辑空间的重要组成部分,是基于业务特征划分的命名空间。 本教程以dataphin_tutorial为例,作为数据板块的命名空间。
计算源:为数据的处理提供计算及存储资源。
项目:项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。本教程以dataphin_tutorial为例,作为项目名称。
数据源:业务数据中读取原始数据和写入数据仓库过程中的数据。
步骤一:创建数据板块
在Dataphin首页,单击顶部菜单栏的规划。
按照下图操作指引,进入新建数据板块对话框。
在生产开发类型步骤中选择Basic模式并单击下一步。
在板块定义中,配置板块的基础信息与业务信息。
参数
描述
英文名
输入为dataphin_tutorial。
名称
输入为入门教程。
描述信息
输入简单的描述。例如,入门教程。
图标
选择图标。
板块架构师
负责板块信息设置,包括基本信息更新、业务信息更新、单元管理等。
业务负责人
为板块数据的业务使用稳定性负责,可根据需要进行选择。
数据负责人
为板块数据生产质量保障负责,可根据需要进行选择。
单击确定。
步骤二:创建MaxCompute计算源
按照下图操作指引,进入新建计算源页面。
在新建计算源页面中,配置参数。
参数
描述
计算源类型
选择MaxCompute。
Endpoint
默认为Dataphin实例计算引擎的Endpoint,不支持修改。
AccessKey ID
访问密钥中的AccessKey ID,可以通过用户信息管理页面获取。
AccessKey Secret
访问密钥中的AccessKey Secret,可以通过用户信息管理页面获取。
MaxCompute项目
输入dataphin_tutorial(在阿里云创建的MaxCompute(ODPS)项目名称)。
外部项目
不勾选。
计算源名称
输入dataphin_tutorial。
描述
输入dataphin_tutorial项目的离线计算源。
单击校验并提交,完成项目计算源的创建。
步骤三:创建项目
按照下图操作指引,进入新建项目对话框。
在生产开发类型步骤中选择Basic模式后,单击下一步。
在项目定义步骤中,配置归属板块、基本信息、业务信息、安全设置、更多设置。
参数
描述
数据板块
选择dataphin_tutorial。
项目英文名
输入dataphin_tutorial。
项目名称
输入dataphin_tutorial。
计算源类型
离线引擎:开启离线引擎并选择MaxCompute。如下图所示:
MAXC:选择在MaxCompute创建的dataphin_tutorial计算源。
空间类型
选择通用层。
说明空间类型可选择应用层、中间层、贴源层、通用层。
应用层(ADS):面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标。
中间层(CDM):经过加工、清洗、汇总后的数据。
贴源层(ODS):是在STG层数据加工汇总后形成的业务系统的原始数据。
通用层:一般用于通用任务或者同时做多种类型的任务开发。
安全设置
使用默认配置。
更多设置
使用默认配置。
单击确定。
步骤四:创建源数据源
在Dataphin首页,单击顶部菜单栏的管理中心。
按照下图操作指引,进入新建数据源对话框。
在关系型数据源中选择MySQL。
在新建MySQL数据源对话框,配置数据源信息。
参数
描述
数据源名称
输入为dataphin_tutorial。
版本
选择为MySQL8。
数据源描述
填写数据源简单描述。例如,入门教程的源数据。
数据源配置
选择“生产”数据源。
标签
默认不填。
JDBC URL
输入格式为
jdbc:mysql://host:port/dataphin
。host:port
信息可以登录MySQL实例详情页进行查看。如下图所示:用户名、密码
输入为dataphin。
SSL加密
若您的MySQL数据源已配置SSL加密,您可以单击开启并上传Truststore证书和填写Truststore证书密码进行加密传输。
类型
选择阿里云数据库。
说明访问方式可以根据数据库创建时网络类型进行选择。
公网数据库:可通过公网访问的数据库。
阿里云数据库:在阿里云上创建的数据库。
ECS(VPC)自建数据库:使用(VPC)自建的数据库。
高级设置
使用默认配置。
单击测试连接。
连通性测试通过后,单击确定。