本文为您介绍如何通过数据集成的脚本模式配置任务。
开发流程
配置任务的操作步骤如下所示:
- 新建数据源。
- 新建离线同步节点。
- 导入模板。
- 配置同步任务的读取端。
- 配置同步任务的写入端。
- 配置字段的映射关系。
- 配置作业速率上限、脏数据检查规则等信息。
- 配置调度属性。
新建数据源
同步任务支持多种同构、异构数据源间的数据传输。首先,在配置数据源。
页面,新增需要同步的数据源,详情请参见新增数据源后,在数据集成配置同步任务时,可以直接进行选择。数据集成支持同步的数据源类型请参见支持的数据源与读写插件。
说明
- 数据集成不支持部分数据源的测试连通性,详情请参见数据源测试连通性。
- 数据源创建在本地,没有公网IP或网络无法到达的情况下,测试连通性会失败。数据集成支持自定义资源组解决网络不可达的情况。详情请参见新增自定义数据集成资源组。
如果网络不可达,您在向导模式中无法获取表结构等信息,请通过脚本模式新建同步任务。
创建业务流程
创建离线同步节点
导入模板
配置同步任务的读取端
新建同步任务后,通过导入模板已生成了基本的读取端配置。此时您可以继续手动配置离线同步任务的读取端数据源,以及需要同步的表信息等。
{"type": "job",
"version": "2.0",
"steps": [ //上述配置为整个同步任务头端代码,无需修改。
{
"stepType": "mysql",
"parameter": {
"datasource": "MySQL",
"column": [
"id",
"value",
"table"
],
"socketTimeout": 3600000,
"connection": [
{
"datasource": "MySQL",
"table": [
"`case`"
]
}
],
"where": "",
"splitPk": "",
"encoding": "UTF-8"
},
"name": "Reader",
"category": "reader" //说明分类为reader读取端。
},
参数说明如下:
- type:指定本次提交的同步任务,仅支持Job参数,所以您只能填写为Job。
- version:目前所有Job支持的版本号为1.0或2.0。
配置同步任务的写入端
配置完成读取端数据源信息后,可以继续手动配置离线同步任务的写入端数据源,以及需要同步的表信息等。
{
"stepType": "odps",
"parameter": {
"postSql":[], //导入后的准备语句。
"partition": "",
"truncate": true,
"compress": false,
"datasource": "odps_first",
"column": [
"*"
],
"emptyAsNull": false,
"table": "",
"preSql":[
"delete from XXX;" //导入前的准备语句。如果需要多条语句,请使用英文分号(;)分隔。
]
},
"name": "Writer",
"category": "writer" //说明分类为writer写入端。
}
],
说明
- 选择写入端的数据源时,请参见配置Writer。
- 很多任务在写入时,需要选择写入模式。例如覆盖写入还是追加写入,针对不同的数据源,有不同的写入模式。
配置字段的映射关系
脚本模式仅支持同行映射,可以在同行建立相应的映射关系,请注意匹配数据类型。
说明 请注意列与列之间映射的字段类型是否数据兼容。
配置通道控制
当上述步骤配置完成后,则需要配置效率。setting域描述的是Job配置参数中除源端、目的端外,有关Job全局信息的配置参数。您可以在setting域中进行效率配置,主要包括同步并发数设置、同步速率设置、同步脏数据设置和同步资源组设置等信息。
"setting": {
"errorLimit": {
"record": "1024" //脏数据条目设置。
},
"speed": {
"throttle": false, //是否进行限速。
"concurrent": 1 //同步并发数设置。
}
},
参数 | 描述 |
---|---|
任务期望最大并发数 | 离线同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。 |
同步速率 | 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。 |
错误记录数 | 错误记录数,表示脏数据的最大容忍条数。 |
配置调度属性
离线同步节点中,经常需要使用调度参数进行数据过滤,下文将为您介绍如何在同步任务中配置调度参数。
在数据开发页面,双击相应业务流程下的离线同步节点名称,打开节点编辑页面,单击右侧的调度配置进行配置。
您可以设置离线同步节点的运行周期、运行时间和调度依赖等属性。由于离线同步节点是ETL工作的开始,所以没有上游节点,此时建议使用工作空间根节点作为上游。
完成离线同步节点的配置后,请保存并提交节点。详情请参加调度配置。
在文档使用中是否遇到以下问题
更多建议
匿名提交