步骤二:规划数仓

数仓规划是基于Dataphin建设数据中台的第一步,同时也是数据体系的顶层设计中至关重要的一步。在开始数据开发前,需要完成数据仓库的规划,包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。

背景信息

  • 数据板块:数据板块是逻辑空间的重要组成部分,是基于业务特征划分的命名空间。 本教程以dataphin_tutorial为例,作为数据板块的命名空间。

  • 计算源:为数据的处理提供计算及存储资源。

  • 项目:项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。本教程以dataphin_tutorial为例,作为项目名称。

  • 数据源:业务数据中读取原始数据和写入数据仓库过程中的数据。

步骤一:创建数据板块

  1. 在Dataphin首页的顶部菜单栏中,选择规划 > 数据架构

  2. 数据板块页面,单击+新建数据板块

  3. 新建数据板块对话框的生产开发类型步骤中选择Basic模式并单击下一步

  4. 板块定义中,配置板块的基础信息业务信息

    参数

    描述

    板块英文名

    输入为dataphin_tutorial

    板块名称

    输入为入门教程

    描述信息(非必填)

    输入简单的描述。例如,入门教程

    图标

    选择gaga图标。

    板块架构师

    选择一个或多个成员,负责板块信息设置,包括基本信息更新、业务信息更新、单元管理等。

    业务负责人(非必选)

    为板块数据的业务使用稳定性负责,可根据需要进行选择。

    数据负责人(非必选)

    为板块数据生产质量保障负责,可根据需要进行选择。

  5. 单击下一步,配置逻辑表命名规范。新建逻辑表时,系统基于逻辑表命名规范自动预生成推荐的逻辑表名称,您可以编辑为其他任意名称,当前可使用默认设置。

    说明

    数据板块创建后,可以在数据板块的研发规范 > 表规范 > 逻辑表命名规范进行编辑。修改表前缀将对同一个逻辑表大类的全部子类型生效。例如,修改维度逻辑表大类,将对普通维度逻辑表、层级维度逻辑表等子类型生效。

  6. 单击确定,完成数据板块的创建。

    数据板块各参数配置详情请参见创建数据板块

步骤二:创建MaxCompute计算源

  1. 在Dataphin首页的顶部菜单栏中,选择规划 > 计算源

  2. 计算源页面单击新增计算源,选择MaxCompute计算源

  3. 新建MaxCompute计算源页面中,配置参数。

    参数

    描述

    计算源类型

    选择MaxCompute

    Endpoint

    默认为Dataphin实例计算引擎的Endpoint,不支持修改。

    AccessKey ID

    访问密钥中的AccessKey ID,可以通过用户信息管理页面获取。

    AccessKey Secret

    访问密钥中的AccessKey Secret,可以通过用户信息管理页面获取。

    MaxCompute项目

    输入dataphin_tutorial(在阿里云创建的MaxCompute(ODPS)项目名称)。

    外部项目

    不选择此项。

    计算源名称

    输入dataphin_tutorial

    描述

    输入dataphin_tutorial项目的离线计算源

  4. 单击校验并提交,完成项目计算源的创建。

    计算源各参数配置详情请参见新建MaxCompute计算源

步骤三:创建项目

  1. 在Dataphin首页的顶部菜单栏中,选择规划 > 项目

  2. 项目管理页面单击新建通用项目,在生产开发类型步骤中选择Basic模式后,单击下一步

  3. 项目定义步骤中,配置归属板块、基本信息、业务信息、安全设置、更多设置。

    参数

    描述

    数据板块

    选择dataphin_tutorial

    项目英文名

    输入dataphin_tutorial

    项目名称

    输入dataphin_tutorial

    计算源类型

    • 离线引擎:开启离线引擎并选择MaxCompute。如下图所示:

      image.png

    • MAXC:选择在MaxCompute创建的dataphin_tutorial计算源。

    • 项目默认资源组该项目下任务生成的实例调度默认使用的资源组,可在任务配置时自定义修改单个任务对应的资源组,仅支持选择已关联可使用的资源组。可选择租户默认资源组或新建资源组,新建资源组详情请参见新建自定义资源组

    空间类型

    选择通用层

    说明
    • 空间类型可选择应用层中间层贴源层通用层

    • 应用层(ADS):面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标。

    • 中间层(CDM):经过加工、清洗、汇总后的数据。

    • 贴源层(ODS):是在STG层数据加工汇总后形成的业务系统的原始数据。

    • 通用层:一般用于通用任务或者同时做多种类型的任务开发。

    安全设置

    使用默认配置

    更多设置

    使用默认配置

  4. 单击确定,完成项目的创建。

    项目各参数配置详情请参见创建通用项目

步骤四:创建源数据源

  1. 在Dataphin首页的顶部菜单栏中,选择管理中心 > 数据源管理

  2. 数据源页面单击+新建数据源,在关系型数据源区域中选择MySQL

  3. 新建MySQL数据源对话框中,配置数据源信息。

    参数

    描述

    数据源名称

    输入为dataphin_tutorial

    版本

    选择为MySQL8

    数据源描述(非必填)

    填写数据源简单描述。例如,入门教程的源数据

    数据源配置

    选择“生产”数据源

    标签(非必填)

    默认不填

    JDBC URL

    输入格式为jdbc:mysql://host:port/dataphinhost:port信息可以登录MySQL实例详情页进行查看。如下图所示:

    image.png

    重要
    • 连接地址请确保已设置Dataphin的IP至数据库白名单中,否则可能导致连接失败。具体操作,请参见数据源白名单配置

    • 使用内网地址时请确保数据库与Dataphin实例在同一地域。更多信息,请参见网络连通解决方案

    用户名密码

    输入为dataphin

    SSL加密

    若您的MySQL数据源已配置SSL加密,您可以选择开启并上传Truststore证书和填写Truststore证书密码进行加密传输。

    高级设置

    使用默认配置

  4. 单击测试连接

  5. 连通性测试通过后,单击确定,完成数据源的创建。

    数据源各参数配置详情请参见创建MySQL数据源