全部产品
大数据开发套件

配置数据同步脚本模式任务

更新时间:2017-08-25 16:00:59   分享:   

创建脚本模式任务

  1. 以开发者身份进入 大数据开发套件管理控制台,单击对应项目操作栏中的 进入工作区

  2. 单击顶部菜单栏中的 数据集成,导航至 同步任务 页面。

  3. 单击界面中的 新建同步任务 > 脚本模式

    1

  4. 选择 导入模板 弹出框中的 来源类型目标类型。如下图所示:

    1

  5. 单击 确认,进入脚本模式配置页面,可根据自身情况进行配置(详情见下文)。如下图所示:

    1

    如果有问题,可单击右上方的 帮助手册 进行查看。

  6. 单击 保存

    注意:

    • 如果想选择新模板,可单击工具栏中的 导入模板,但一旦导入新模板,原有内容将会被全部覆盖。
    • 您可在建好的向导模式中,单击工具栏中的 转换脚本,将其转换为脚本模式。

脚本模式的基本配置

数据集成 JSON 框架级别的配置信息,包括:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "settting": {
  6. "key": "value"
  7. },
  8. "reader": {
  9. "plugin": "填写源头数据存储类型的名称",
  10. "parameter": {
  11. "key": "value"
  12. }
  13. },
  14. "writer": {
  15. "plugin": "填写目标端数据存储类型的名称",
  16. "parameter": {
  17. "key": "value"
  18. }
  19. }
  20. }
  21. }

配置项说明:

  • type

    指定本次提交的同步任务,仅支持 Job 参数。您只能填写为 Job

  • version

    目前所有 Job 仅支持版本号 1.0,您只能填写版本号为 1.0

系统调优配置

Job 的 setting 域描述的是 Job 配置参数中除源端、目的端外有关 Job 全局信息的配置参数,比如 Job 流控、Job 类型转换。总体如下:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "setting": {
  6. "errorLimit": {},
  7. "speed": {}
  8. }
  9. }
  10. }
  • configuration.setting.errorLimit(脏数据控制)

    支持您对于脏数据的自定义监控和告警,包括对脏数据最大记录数阈值,当 Job 传输过程出现的脏数据大于您指定的数量,则报错退出 。如下所示:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "setting": {
  6. "errorLimit": {
  7. "record": 1024
  8. }
  9. }
  10. }
  11. }

上述配置中您指定了 errorLimit 上限为 1024 条 record,当 Job 在传输过程中出现脏数据记录数大于 1024,则 Job 报错退出 。

  • configuration.setting.speed (流量控制)

    支持控制通道流量,即您可以对单个 Job 分配带宽的最大限制。

    配置如下,代表 1MB/s 的传输带宽:

    1. {
    2. "type": "job",
    3. "configuration": {
    4. "setting": {
    5. "speed": {
    6. "mbps": 1
    7. }
    8. }
    9. }
    10. }

    注意:

    流量度量值是数据集成本身的度量值,不代表实际网卡流量。通常情况下,网卡流量往往是通道流量膨胀到 1 至 2 倍左右,实际流量膨胀看具体的数据存储系统传输序列化情况。

    半结构化的单个文件没有切分键的概念,多个文件可以设置 作业速率上限 来提高同步的速度,但 作业速率上限 跟文件的个数有关,比如有 n 个文件,作业速率上限 最多设置为 n MB/s,如果设置 n+1 MB/s 还是以 n MB/s 速度同步,如果设置为 n-1 MB/s,则以 n-1 MB/s 速度同步。

    关系型数据库设置 作业速率上限切分键 才能根据 作业速率上限 将表进行切分,关系型数据库只支持数值型作为切分键,但 oracle 数据库支持数值型和字符串类型作为切分键。

本文导读目录
本文导读目录
以上内容是否对您有帮助?