全部产品
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
数据集成

Job主体配置

更新时间:2017-12-11 11:09:11

Job基本配置

Job基本配置定义了一个Job基础的、框架级别的配置信息,包括:

  1. {
  2. "type": "job", //用户提交同步类型,包括Job/Stream
  3. "version": "1.0", //版本号,公测版本CDP目前仅支持1.0版本格式。
  4. "configuration": {
  5. "settting": {
  6. "key": "value"
  7. },
  8. "reader": {
  9. "plugin": "mysql", //这里填写源头数据存储类型的名称
  10. "parameter": {
  11. "key": "value"
  12. }
  13. },
  14. "writer": {
  15. "plugin": "odps", //这里填写目标端数据存储类型的名称
  16. "parameter": {
  17. "key": "value"
  18. }
  19. }
  20. }
  21. }

其中:

  • type

    指定本次提交同步任务是Job、Stream。

  • version

    目前所有Job仅支持版本号”1.0“,您只能填写版本号为”1.0”。

Job Setting配置

Job的setting域描述的是Job配置参数中,排除源端、目的端外有关Job全局信息的配置参数,比如Job流控、Job类型转换。总体如下:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "setting": {
  6. "errorLimit": {},
  7. "speed": {},
  8. "column": {}
  9. }
  10. }
  11. }
  • configuration.setting.column(类型转换)

    数据集成支持最基本的类型转换,用户可以自定义设定类型转换配置,用以描述一些基本的字段类型转换信息,包括:

  • datetimeFormat:设定datetime类型和string类型的转换format。

  • timeFormat:设定time类型和string类型的转换format。

  • dateFormat:设定date类型和string类型的转换format。

  • encoding:设定byte类型和string类型的转换编码格式。

目前支持的类型转换格式配置如下:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "setting": {
  6. "column": {
  7. "datetimeFormat": "yyyy-MM-dd HH:mm:ss",
  8. "timeFormat": "HH:mm:ss",
  9. "dateFormat": "yyyy-MM-dd",
  10. "encoding": "utf-8"
  11. }
  12. }
  13. }
  14. }
  • configuration.setting.errorLimit(脏数据控制)

    数据集成Job支持用户对于脏数据的自定义监控和告警,包括对脏数据最大记录数阈值或者脏数据占比阈值,当Job传输过程出现的脏数据大于用户指定的数量/百分比,数据集成Job报错退出。如下:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "setting": {
  6. "errorLimit": {
  7. "record": 1024
  8. }
  9. }
  10. }
  11. }

上述配置用户指定了errorLimit 上限为1024条record,当Job在传输过程中出现脏数据记录数大于1024,Job报错退出。同样,用户可以指定脏数据占总体数据传输记录数的百分比,如果大于该值,Job报错退出:

  • configuration.setting.speed(流量控制)

    数集成Job支持对通道流量控制,即用户可以对单个Job分配带宽最大限制。数据集成公测期间,最大Job流量阈值为5MB/s,数据集成将直接报错。注意流量度量值是数据集成本身的度量值,不代表实际网卡流量。通常情况下,网卡流量往往是数据集成通道流量膨胀到1至2倍左右,实际流量膨胀看具体的数据存储系统传输序列化情况。配置如下:

  1. {
  2. "type": "job",
  3. "configuration": {
  4. "setting": {
  5. "speed": {
  6. "mbps": 1 //代表1MB/s的传输带宽
  7. }
  8. }
  9. }
  10. }
本文导读目录