全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 更多
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 智能硬件
DataWorks(数据工场)

配置数据同步脚本模式任务

更新时间:2017-12-08 10:48:07

创建脚本模式任务

  1. 以开发者身份进入DataWorks管理控制台,单击对应项目操作栏中的进入工作区

  2. 单击顶部菜单栏中的数据集成,导航至同步任务页面。

  3. 单击界面中的新建同步任务>脚本模式

    1

  4. 选择导入模板弹出框中的来源类型目标类型。如下图所示:

    1

  5. 单击确认,进入脚本模式配置页面,可根据自身情况进行配置(详情见下文)。如下图所示:

    1

    如果有问题,可单击右上方的帮助手册进行查看。

  6. 单击保存

    注意

    • 如果想选择新模板,可单击工具栏中的导入模板,但一旦导入新模板,原有内容将会被全部覆盖。

    • 您可在建好的向导模式中,单击工具栏中的转换脚本,将其转换为脚本模式。

脚本模式的基本配置

数据集成JSON框架级别的配置信息,如下所示:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "settting": {
  6. "key": "value"
  7. },
  8. "reader": {
  9. "plugin": "填写源头数据存储类型的名称",
  10. "parameter": {
  11. "key": "value"
  12. }
  13. },
  14. "writer": {
  15. "plugin": "填写目标端数据存储类型的名称",
  16. "parameter": {
  17. "key": "value"
  18. }
  19. }
  20. }
  21. }

配置项说明:

  • type

    指定本次提交的同步任务,仅支持Job参数。您只能填写为Job

  • version

    目前所有Job仅支持版本号1.0,您只能填写版本号为1.0

系统调优配置

Job的setting域描述的是Job配置参数中除源端、目的端外有关Job全局信息的配置参数,比如Job流控、Job类型转换。如下所示:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "setting": {
  6. "errorLimit": {},
  7. "speed": {}
  8. }
  9. }
  10. }
  • configuration.setting.errorLimit(脏数据控制)

    支持您对于脏数据的自定义监控和告警,包括对脏数据最大记录数阈值,当Job传输过程出现的脏数据大于您指定的数量,则报错退出。如下所示:

    1. {
    2. "type": "job",
    3. "version": "1.0",
    4. "configuration": {
    5. "setting": {
    6. "errorLimit": {
    7. "record": 1024
    8. }
    9. }
    10. }
    11. }

    上述配置中您指定了errorLimit上限为1024条record,当Job在传输过程中出现脏数据记录数大于1024,则Job报错退出。

  • configuration.setting.speed(流量控制)

    支持控制通道流量,即您可以对单个Job分配带宽的最大限制。

    配置如下,代表1MB/s的传输带宽:

    1. {
    2. "type": "job",
    3. "configuration": {
    4. "setting": {
    5. "speed": {
    6. "mbps": 1
    7. }
    8. }
    9. }
    10. }

    注意:

    流量度量值是数据集成本身的度量值,不代表实际网卡流量。通常情况下,网卡流量往往是通道流量膨胀到1至2倍,实际流量膨胀看具体的数据存储系统传输序列化情况。

    半结构化的单个文件没有切分键的概念,多个文件可以设置作业速率上限来提高同步的速度,但作业速率上限跟文件的个数有关,比如有n个文件,作业速率上限最多设置为nMB/s,如果设置n+1MB/s还是以nMB/s速度同步,如果设置为n-1MB/s,则以n-1MB/s速度同步。

    关系型数据库设置作业速率上限切分键才能根据作业速率上限将表进行切分,关系型数据库只支持数值型作为切分键,但Oracle数据库支持数值型和字符串类型作为切分键。

本文导读目录