本文将为您介绍如何基于AnalyticDB构建企业数仓,并进行运维和元数据管理等操作。
开始本文的操作前,请首先创建工作空间,详情请参见创建工作空间。
配置AnalyticDB for MySQL 3.0数据源
进入数据源页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入管理中心。
进入工作空间管理中心页面后,单击左侧导航栏的
,进入数据源页面。
在新增数据源对话框中,选择数据源类型为AnalyticDB for MySQL (V3.0)。
配置AnalyticDB for MySQL 3.0数据源的参数,详情请参见配置AnalyticDB for MySQL 3.0数据源。
说明支持Serverless资源组(推荐)或者旧版独享调度资源组运行AnalyticDB for MySQL 节点任务访问专有网络环境下的AnalyticDB for MySQL 实例,其他资源组无法访问专有网络环境下的AnalyticDB for MySQL 实例,会出现链接超时的情况。Serverless资源组使用详情请参考文档新增和使用Serverless资源组。
如果使用的是AnalyticDB for MySQL 2.0版本,通过用户AK信息进行身份验证。
如果使用的是AnalyticDB for MySQL 3.0版本,通过数据库的用户名和密码进行身份验证(开通3.0版本数据库后,首先在控制台创建用户和密码)。
单击测试连通性。
测试连通性通过后,单击完成。
设置AnalyticDB for MySQL 3.0白名单
由于AnalyticDB for MySQL 3.0版本基于用户名密码访问,因此需要设置客户端白名单,才允许连接数据库。
内网环境
测试连通性的过程中,您可以通过连通性诊断工具将AnalyticDB for MySQL 3.0的VPC绑定到Serverless资源组,并将资源组绑定的交换机网段IP添加到AnalyticDB for MySQL 3.0白名单里。详情请参见测试连通性。
公网环境
为Serverless资源组绑定的VPC配置公网NAT网关和EIP,将配置的EIP添加到AnalyticDB for MySQL 3.0数据源的白名单里。
为Serverless资源组绑定的VPC配置公网NAT网关和EIP 。
为了能让DataWorks gateway请求AnalyticDB for MySQL 3.0,需要为Serverless资源组绑定的VPC配置公网NAT网关和EIP,详情可参考文档网络连通方案。将配置的EIP添加到AnalyticDB for MySQL 3.0的白名单中(AnalyticDB for MySQL 2.0不需要设置)。
设置AnalyticDB for MySQL 3.0白名单 。
登录AnalyticDB for MySQL 3.0控制台,进入集群列表页面。单击集群 ID/集群描述详情进入集群管理界面。单击左侧导航栏
,在数据安全-白名单设置位置设置白名单。单击添加白名单分组按钮,进入添加白名单分组页面。输入自定义的分组名称,并将对应的Serverless资源组绑定的VPC的EIP粘贴至组内白名单中。单击确定进行保存。
新建业务流程
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
在数据开发页面,单击上方导航栏的
,进入新建业务流程页面,在对话框中输入业务名称和描述。单击新建。
创建离线同步任务
右键单击新建业务流程下的数据集成,选择
。在新建节点对话框中,输入名称,单击提交。
设置数据来源和数据去向。
选择字段的映射关系。
左侧的源头表字段和右侧的目标表字段为一一对应关系。单击添加一行可以增加单个字段,鼠标放至需要删除的字段上,即可单击删除图标进行删除 。
通道控制。
配置作业速率上限和脏数据检查规则。
参数
描述
任务期望最大并发数
数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
同步速率
设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
脏数据策略
错误记录数,表示脏数据的最大容忍条数。
分布式处理能力
选择任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源的情况,建议购买Serverless资源组,详情请参见新增和使用Serverless资源组。
单击右侧的调度配置,为节点配置调度属性。
配置完成后,单击按钮进行保存,并单击按钮提交任务。
新建数据开发任务
右键单击业务流程下的自定义,选择
。在新建节点对话框中,输入节点名称,单击提交。
选择相应的数据源后,根据AnalyticDB for MySQL支持的语法,编写SQL语句。通常支持DML语句,您也可以执行DDL语句。
单击右侧的调度配置,为节点配置调度属性。
配置完成后,单击保存按钮,将其保存至服务器。然后单击运行按钮,即可立即执行编辑的SQL语句。
数据运维
任务提交发布后,会基于节点的配置周期性运行,您可单击节点编辑界面右上角的运维,进入运维中心查看周期任务的调度运行情况。详情请参见查看并管理周期任务。
元数据管理
您可以单击进入DataWorks控制台,选择 ,进行元数据管理操作。详情请参见数据地图概述。