全部产品
阿里云办公

Job(作业)

更新时间:2018-03-12 11:15:26

Job是数据集成进行数据批量同步的基本业务单位,数据集成的Job面向表级别数据同步,Job描述了一个数据同步作业完成一次数据同步任务所需要的信息,包括E(Extract)、T(Transform)、L(Load)等用户描述信息,也包括作业的运行信息,例如同步数据量、同步速率、当前进度等计量信息,还包括生命周期等,Job运行完毕即完成了一次数据同步工作。

作用

  • 作业模型

    数据集成本身不保存作业信息,数据集成对用户提交每一次作业都生成一个Job对象,并为其分配了唯一的Job ID。对于用户多次提交同一个作业,数据集成识别为多次提交,并分配多个Job ID。即对于数据集成同步任务(批处理同步和流式同步)而言,数据基层提供触发式任务服务能力。 类似于Hadoop的作业概念模型,数据集成将提交的一个实例化作业抽象为Job,运行一次即是一个独立的Job。

  • 调度模型

    作业速率上限是指数据同步作业可能达到的最高速率,其最终实际速率受网络环境、数据库配置等影响。

    单并发同步作业:作业并发数 * 单并发的传输速率 = 作业传输总速率。

    在作业速率上限已选定的情况下,应该如何选择作业并发数?

    如果您的数据源是线上的业务库,建议您不要将并发数设置过大,以防对线上的业务库造成影响。

    如果您特别在意数据同步速率,建议您选择最大作业速率上限和较大的作业并发数。作业速率上限和作业并发数在json里的表现形式。

    mbps:表示作业并发的速率上限,例如: “mbps”: “1”,表示作业速率上限是1MB/S。

    concurrent:表示并发的数目,例如:”concurrent”: “1”,表示作业并发的数目为1。

  • 约束限制

    数据集成暂未能实现对数据源schema信息同步功能,因此用户需要提前在目的端数据源进行建表操作,并且最好做到目标表的字段个数、类型与源端大致一致。

    数据集成按照源宿两端Column的进行传输,而不是依靠Column名称或者类型进行,是根据相关的映射情况进行传输,例如源端Column为a,b,c三列,目标端为x,y,z三列。数据集成将源端数据a,b,c按照目标端数据x,y,z顺序导入。

    数据集成本身存在字段类型隐式转换规则,支持常见的转换规则例如整形、浮点型可以自动转为字符串类型。