基于AnalyticDB构建企业数仓

本文将为您介绍如何基于AnalyticDB构建企业数仓,并进行运维和元数据管理等操作。

开始本文的操作前,请首先创建工作空间,详情请参见创建工作空间

配置AnalyticDB for MySQL 3.0数据源

  1. 进入数据源页面。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心

    2. 进入工作空间管理中心页面后,单击左侧导航栏的数据源 > 数据源列表,进入数据源页面。

  2. 新增数据源对话框中,选择数据源类型为AnalyticDB for MySQL (V3.0)

  3. 配置AnalyticDB for MySQL 3.0数据源的参数,详情请参见配置AnalyticDB for MySQL 3.0数据源

    说明
    • 支持Serverless资源组(推荐)或者旧版独享调度资源组运行AnalyticDB for MySQL 节点任务访问专有网络环境下的AnalyticDB for MySQL 实例,其他资源组无法访问专有网络环境下的AnalyticDB for MySQL 实例,会出现链接超时的情况。Serverless资源组使用详情请参考文档新增和使用Serverless资源组

    • 如果使用的是AnalyticDB for MySQL 2.0版本,通过用户AK信息进行身份验证。

    • 如果使用的是AnalyticDB for MySQL 3.0版本,通过数据库的用户名和密码进行身份验证(开通3.0版本数据库后,首先在控制台创建用户和密码)。

  4. 单击测试连通性

  5. 测试连通性通过后,单击完成

设置AnalyticDB for MySQL 3.0白名单

由于AnalyticDB for MySQL 3.0版本基于用户名密码访问,因此需要设置客户端白名单,才允许连接数据库。

内网环境

测试连通性的过程中,您可以通过连通性诊断工具将AnalyticDB for MySQL 3.0的VPC绑定到Serverless资源组,并将资源组绑定的交换机网段IP添加到AnalyticDB for MySQL 3.0白名单里。详情请参见测试连通性

公网环境

为Serverless资源组绑定的VPC配置公网NAT网关和EIP,将配置的EIP添加到AnalyticDB for MySQL 3.0数据源的白名单里。

  • 为Serverless资源组绑定的VPC配置公网NAT网关和EIP 。

    为了能让DataWorks gateway请求AnalyticDB for MySQL 3.0,需要为Serverless资源组绑定的VPC配置公网NAT网关和EIP,详情可参考文档网络连通方案。将配置的EIP添加到AnalyticDB for MySQL 3.0的白名单中(AnalyticDB for MySQL 2.0不需要设置)。

  • 设置AnalyticDB for MySQL 3.0白名单 。

    1. 登录AnalyticDB for MySQL 3.0控制台,进入集群列表页面。单击集群 ID/集群描述详情进入集群管理界面。单击左侧导航栏集群管理 > 集群信息,在数据安全-白名单设置位置设置白名单。

    2. 单击添加白名单分组按钮,进入添加白名单分组页面。输入自定义的分组名称,并将对应的Serverless资源组绑定的VPC的EIP粘贴至组内白名单中。单击确定进行保存。

新建业务流程

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 在数据开发页面,单击上方导航栏的新建 > 新建业务流程,进入新建业务流程页面,在对话框中输入业务名称描述

  3. 单击新建

创建离线同步任务

  1. 右键单击新建业务流程下的数据集成,选择新建 > 离线同步

  2. 新建节点对话框中,输入名称,单击提交

  3. 设置数据来源数据去向

  4. 选择字段的映射关系。

    左侧的源头表字段和右侧的目标表字段为一一对应关系。单击添加一行可以增加单个字段,鼠标放至需要删除的字段上,即可单击删除图标进行删除 。

  5. 通道控制。

    配置作业速率上限和脏数据检查规则。

    参数

    描述

    任务期望最大并发数

    数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。

    同步速率

    设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。

    脏数据策略

    错误记录数,表示脏数据的最大容忍条数。

    分布式处理能力

    选择任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源的情况,建议购买Serverless资源组,详情请参见新增和使用Serverless资源组

  6. 单击右侧的调度配置,为节点配置调度属性。

  7. 配置完成后,单击保存按钮进行保存,并单击提交按钮提交任务。

新建数据开发任务

  1. 右键单击业务流程下的自定义,选择新建 > AnalyticDB for MySQL

  2. 新建节点对话框中,输入节点名称,单击提交

  3. 选择相应的数据源后,根据AnalyticDB for MySQL支持的语法,编写SQL语句。通常支持DML语句,您也可以执行DDL语句。

  4. 单击右侧的调度配置,为节点配置调度属性。调度配置

  5. 配置完成后,单击保存按钮,将其保存至服务器。然后单击运行按钮,即可立即执行编辑的SQL语句。

数据运维

任务提交发布后,会基于节点的配置周期性运行,您可单击节点编辑界面右上角的运维,进入运维中心查看周期任务的调度运行情况。详情请参见查看并管理周期任务

元数据管理

您可以单击进入DataWorks控制台,选择数据治理 > 数据地图,进行元数据管理操作。详情请参见数据地图概述