全部产品
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
数据集成

脚本模式的作业配置

更新时间:2017-07-03 16:53:49

创建脚本模式任务

  1. 以开发者身份进入 阿里云数加平台>大数据开发套件>管理控制台,点击“项目列表”下对应项目操作栏中的 进入工作区 ;

  2. 点击顶部菜单栏中的 数据集成 中左侧导航栏的 同步任务

  3. 点击界面中的脚本模式

    1

  4. 在弹出的“导入模板”中选择自己需要的“来源类型”和“目标类型”,如下图所示:

    1

  5. 点击确认后即进入脚本模式配置页面,可根据自身情况进行配置(详情见下文),如有问题可点击右上方的帮助手册进行查看,如下图所示:

    1

  6. 完成后点击“保存” 。

备注:若想选择新模板,可点击工具栏中的“导入模板”,但一旦导入新模板,原有内容将会被全部覆盖;同时您也可在建好的向导模式中点击工具栏中的“转换脚本”,将其转换为脚本模式 。

脚本模式基本配置

数据集成 JSON 框架级别的配置信息,包括:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "settting": {
  6. "key": "value"
  7. },
  8. "reader": {
  9. "plugin": "填写源头数据存储类型的名称",
  10. "parameter": {
  11. "key": "value"
  12. }
  13. },
  14. "writer": {
  15. "plugin": "填写目标端数据存储类型的名称",
  16. "parameter": {
  17. "key": "value"
  18. }
  19. }
  20. }
  21. }

其中:

type

指定本次提交的同步任务,仅支持 Job 参数。用户只能填写为 “Job”。

version

目前所有 Job 仅支持版本号 “1.0”,用户只能填写版本号为 “1.0”。

系统调优配置

Job 的 setting 域描述的是 Job 配置参数中除源端、目的端外有关 Job 全局信息的配置参数,比如 Job 流控、Job 类型转换 。总体如下:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "setting": {
  6. "errorLimit": {},
  7. "speed": {}
  8. }
  9. }
  10. }

configuration.setting.errorLimit (脏数据控制)

支持用户对于脏数据的自定义监控和告警,包括对脏数据最大记录数阈值,当 Job 传输过程出现的脏数据大于用户指定的数量,则报错退出 。如下所示:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "setting": {
  6. "errorLimit": {
  7. "record": 1024
  8. }
  9. }
  10. }
  11. }

上述配置中用户指定了 errorLimit 上限为 1024 条 record,当 Job 在传输过程中出现脏数据记录数大于 1024,则 Job 报错退出 。

configuration.setting.speed (流量控制)

支持对通道流量控制,即用户可以对单个 Job 分配带宽最大限制 。

配置如下,代表 1MB/s 的传输带宽:

  1. {
  2. "type": "job",
  3. "configuration": {
  4. "setting": {
  5. "speed": {
  6. "mbps": 1
  7. }
  8. }
  9. }
  10. }

注意:

流量度量值是数据集成本身的度量值,不代表实际网卡流量 。通常情况下,网卡流量往往是通道流量膨胀到 1 至 2 倍左右,实际流量膨胀看具体的数据存储系统传输序列化情况 。

半结构化的单个文件没有切分键的概念,多个文件可以设置“作业速率上限”来提高同步的速度,但“作业速率上限”跟文件的个数有关,比如有 n 个文件,“作业速率上限”设置最多设置为 n MB/s,如果设置 n+1 MB/s 还是以 n MB/s 速度同步,如果设置为 n-1 MB/s,则以 n-1 MB/s 速度同步 。

关系型数据库设置“作业速率上限”和“切分键”才能根据“作业速率上限”将表进行切分,关系型数据库只支持数值型作为切分键,但 oracle 数据库是支持数值型和字符串类型的作为切分键 。

其他脚本模式详细配置信息请参考下面文档:

Reader插件配置

Writer插件配置

本文导读目录