可重跑与幂等性

更新时间:2017-06-07 13:26:11

​CDP定位在为各类数据存储提供数据传输通道功能,在定期自动化运行数据同步场景,如数仓ETL流程,要求所有的数据同步Job能够做到多次数据同步能够和单次数据同步最终结果一致。例如当一次数据同步Job出现Fail情况,用户可以直接重启CDP任务而不需要到目的数据端进行线上数据清理操作。这在数仓领域属于Job幂等性要求。

​CDP Job的幂等性是通过Writer插件的前置条件来实现的,例如用户可写ODPS配置中提供数据写入前的清理工作,该配置可以保证每次数据导入前都会先清除当前表或者分区的现有数据,这样能够保证数据多次写入的结果和当前一次性写入结果一致。