本文将为您介绍如何基于AnalyticDB构建企业数仓,并进行运维和元数据管理等操作。

开始本文的操作前,请首先创建工作空间,详情请参见创建工作空间

配置AnalyticDB for MySQL 2.0数据源

  1. 登录DataWorks控制台,单击相应工作空间后的进入数据集成
  2. 单击左侧导航栏中的数据源,即可跳转至工作空间管理 > 数据源管理页面。
  3. 数据源管理页面,单击右上角的新增数据源
  4. 新增数据源对话框中,选择数据源类型为AnalyticDB for MySQL 3.0
  5. 配置AnalyticDB for MySQL 2.0数据源的参数,详情请参见配置AnalyticDB for MySQL 2.0数据源
    说明
    • AnalyticDB for MySQL 节点只支持使用独享调度资源组,其他资源组无法访问专有网络环境下的AnalyticDB for MySQL 实例,会出现链接超时的情况。独享调度资源组使用详情请参考文档新增和使用独享调度资源组
    • 如果使用的是AnalyticDB for MySQL 2.0版本,通过用户AK信息进行身份验证。
    • 如果使用的是AnalyticDB for MySQL 3.0版本,通过数据库的用户名和密码进行身份验证(开通3.0版本数据库后,首先在控制台创建用户和密码)。
  6. 单击测试连通性
  7. 测试连通性通过后,单击完成

设置AnalyticDB for MySQL 3.0白名单

由于AnalyticDB for MySQL 3.0版本基于用户名密码访问,因此需要设置客户端白名单,才允许连接数据库。

  1. 获取独享调度资源组白名单

    为了能让DataWorks gateway请求AnalyticDB for MySQL 3.0,需要将独享调度资源组绑定的弹性网卡ip,详情可参考文档添加独享调度资源组白名单,将其设置为AnalyticDB for MySQL 3.0的白名单(AnalyticDB for MySQL 2.0不需要设置)。

  2. 设置AnalyticDB for MySQL 3.0白名单
    1. 登录AnalyticDB for MySQL 3.0控制台,进入集群列表 > 数据安全页面。数据安全
    2. 单击添加白名单分组,将复制的DataWorks白名单粘贴至AnalyticDB for MySQL 3.0中。AnalyticDB白名单

新建业务流程

  1. 单击左上角的图标,选择全部产品 > DataStudio(数据开发)
  2. 新建业务流程对话框中,输入业务名称描述
  3. 单击新建

创建离线同步任务

  1. 右键单击新建业务流程下的数据集成,选择新建 > 离线同步
  2. 新建节点对话框中,输入节点名称,单击提交
  3. 设置数据来源数据去向选择数据源
  4. 选择字段的映射关系。
    左侧的源头表字段和右侧的目标表字段为一一对应关系。单击添加一行可以增加单个字段,鼠标放至需要删除的字段上,即可单击删除图标进行删除 。字段映射
  5. 通道控制。
    配置作业速率上限和脏数据检查规则。
    参数 描述
    任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
    同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
    错误记录数 错误记录数,表示脏数据的最大容忍条数。
    独享数据集成资源组 选择任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源的情况,建议购买独享数据集成资源或添加自定义资源组,详情请参见独享数据集成资源组新增自定义资源组
  6. 单击右侧的调度配置,为节点配置调度属性。
  7. 配置完成后,单击保存提交

新建数据开发任务

  1. 右键单击业务流程下的自定义,选择新建 > AnalyticDB for MySQL
  2. 新建节点对话框中,输入节点名称,单击提交
  3. 选择相应的数据源后,根据AnalyticDB for MySQL支持的语法,编写SQL语句。通常支持DML语句,您也可以执行DDL语句。
  4. 单击右侧的调度配置,为节点配置调度属性。调度配置
  5. 配置完成后,单击保存按钮,将其保存至服务器。然后单击运行按钮,即可立即执行编辑的SQL语句。

数据运维

提交并发布新建的节点任务后,单击左上角的图标,选择全部产品 > 运维中心,即可进行数据运维操作。详情请参见运维中心模块的文档。

元数据管理

您可以单击左上角的图标,选择全部产品 > 数据地图,进行元数据管理操作。详情请参见数据地图