PTS数据加工功能实现了流式数据的清洗和转换处理,能够准确、高效地完成全链路压测前的数据准备工作。本文介绍如何通过DAG模式(可视化拖拽方式)配置ETL(Extract Transform Load)任务。
前提条件
- 当前仅支持在华东1(杭州)、华北2(北京)和华北3(张家口)创建ETL任务。
- 当前源库支持自建MySQL、RDS MySQL、PolarDB MySQL引擎、PolarDB-X 1.0(原DRDS),目标库支持为自建MySQL、RDS MySQL、PolarDB MySQL引擎、云原生数据仓库AnalyticDB MySQL版 3.0。
- 由于ETL功能暂不支持结构迁移,所以您需要根据转换条件在目标库侧完成对应表结构的创建。例如A表中包含字段1、字段2和字段3,B表中包含字段2、字段3和字段4,对两张表通过做JOIN操作后,需要输出字段2和字段3,则需要在目标库侧创建做JOIN操作后的C表,C表中包含字段2和字段3。
- 由于ETL功能暂不支持全量数据同步,所以您只能对增量数据进行实时转换。
背景信息
数据加工为结构同步过程提供了流式的ETL功能,您可以在源库和目标库之间添加各种转换组件,实现丰富的转换操作,并将处理后的数据实时写入目标库。例如将两张流表做JOIN操作后形成一张大表,写入目标库;或者给源表新增一个字段,并为该字段配置函数进行赋值,源表该字段经过赋值转换后写入目标库。
在配置ETL任务前,请您了解以下信息:
- 输入/维表指ETL的源库。
- 输出指经过ETL处理后写入的目标库。
注意事项
操作步骤
下述操作步骤中数据库源端与目标端的配置以MySQL为例。
- 登录PTS控制台,在左侧导航栏中选择 。
- 在数据加工页面,单击+新增数据流。
- 在新增数据流页面,输入自定义的数据流信息,然后单击确认。
- 在数据加工页面,完成以下配置。
- 预检查并启动任务。
相关操作
数据加工创建完成后,选择已创建的数据加工信息,在对应的操作列下:
- 单击配置任务,修改数据加工的ETL任务。
- 单击运维,查看数据加工任务的任务日志、监控报警、发布列表、运行日志等信息。
- 单击释放任务,删除已创建的ETL任务。