文档

步骤二:规划数仓

更新时间:

数仓规划是基于Dataphin建设数据中台的第一步,同时也是数据体系的顶层设计中至关重要的一步。在开始数据开发前,需要完成数据仓库的规划,包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。

背景信息

  • 数据板块:数据板块是逻辑空间的重要组成部分,是基于业务特征划分的命名空间。 本教程以dataphin_tutorial为例,作为数据板块的命名空间。

  • 计算源:为数据的处理提供计算及存储资源。

  • 项目:项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。本教程以dataphin_tutorial为例,作为项目名称。

  • 数据源:业务数据中读取原始数据和写入数据仓库过程中的数据。

步骤一:创建数据板块

  1. 在Dataphin首页,单击顶部菜单栏的规划

  2. 按照下图操作指引,进入新建数据板块对话框。

    image.png

  3. 生产开发类型步骤中选择Basic模式并单击下一步

  4. 板块定义中,配置板块的基础信息业务信息

    参数

    描述

    英文名

    输入为dataphin_tutorial

    名称

    输入为入门教程

    描述信息

    输入简单的描述。例如,入门教程

    图标

    选择gaga图标。

    板块架构师

    负责板块信息设置,包括基本信息更新、业务信息更新、单元管理等。

    业务负责人

    为板块数据的业务使用稳定性负责,可根据需要进行选择。

    数据负责人

    为板块数据生产质量保障负责,可根据需要进行选择。

  5. 单击确定

步骤二:创建MaxCompute计算源

  1. 按照下图操作指引,进入新建计算源页面。

    image.png

  2. 新建计算源页面中,配置参数。

    参数

    描述

    计算源类型

    选择MaxCompute

    Endpoint

    默认为Dataphin实例计算引擎的Endpoint,不支持修改。

    AccessKey ID

    访问密钥中的AccessKey ID,可以通过用户信息管理页面获取。

    AccessKey Secret

    访问密钥中的AccessKey Secret,可以通过用户信息管理页面获取。

    MaxCompute项目

    输入dataphin_tutorial(在阿里云创建的MaxCompute(ODPS)项目名称)。

    外部项目

    不勾选。

    计算源名称

    输入dataphin_tutorial

    描述

    输入dataphin_tutorial项目的离线计算源

  3. 单击校验并提交,完成项目计算源的创建。

步骤三:创建项目

  1. 按照下图操作指引,进入新建项目对话框。

    image.png

  2. 生产开发类型步骤中选择Basic模式后,单击下一步

  3. 项目定义步骤中,配置归属板块、基本信息、业务信息、安全设置、更多设置。

    参数

    描述

    数据板块

    选择dataphin_tutorial

    项目英文名

    输入dataphin_tutorial

    项目名称

    输入dataphin_tutorial

    计算源类型

    • 离线引擎:开启离线引擎并选择MaxCompute。如下图所示:

      image.png

    • MAXC:选择在MaxCompute创建的dataphin_tutorial计算源。

    空间类型

    选择通用层

    说明
    • 空间类型可选择应用层中间层贴源层通用层

    • 应用层(ADS):面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标。

    • 中间层(CDM):经过加工、清洗、汇总后的数据。

    • 贴源层(ODS):是在STG层数据加工汇总后形成的业务系统的原始数据。

    • 通用层:一般用于通用任务或者同时做多种类型的任务开发。

    安全设置

    使用默认配置

    更多设置

    使用默认配置

  4. 单击确定

步骤四:创建源数据源

  1. 在Dataphin首页,单击顶部菜单栏的管理中心

  2. 按照下图操作指引,进入新建数据源对话框。

    image.png

  3. 关系型数据源中选择MySQL

  4. 新建MySQL数据源对话框,配置数据源信息。

    参数

    描述

    数据源名称

    输入为dataphin_tutorial

    版本

    选择为MySQL8

    数据源描述

    填写数据源简单描述。例如,入门教程的源数据

    数据源配置

    选择“生产”数据源

    标签

    默认不填

    JDBC URL

    输入格式为jdbc:mysql://host:port/dataphinhost:port信息可以登录MySQL实例详情页进行查看。如下图所示:

    image.png

    重要
    • 连接地址请确保已设置Dataphin的IP至数据库白名单中,否则可能导致连接失败。具体操作,请参见数据源白名单配置

    • 使用内网地址时请确保数据库与Dataphin实例在同一地域。更多信息,请参见网络连通解决方案

    用户名密码

    输入为dataphin

    SSL加密

    若您的MySQL数据源已配置SSL加密,您可以单击开启上传Truststore证书和填写Truststore证书密码进行加密传输。

    类型

    选择阿里云数据库

    说明

    访问方式可以根据数据库创建时网络类型进行选择。

    公网数据库:可通过公网访问的数据库。

    阿里云数据库:在阿里云上创建的数据库。

    ECS(VPC)自建数据库:使用(VPC)自建的数据库。

    高级设置

    使用默认配置

  5. 单击测试连接

  6. 连通性测试通过后,单击确定