全部产品
表格存储

数据集成

更新时间:2017-07-11 14:19:27   分享:   

大数据套件中数据集成(Data Integration)是阿里集团对外提供的可跨异构数据存储系统的、可靠、安全、低成本、可弹性扩展的数据同步平台,为 20+ 种数据源提供不同网络环境下的离线(全量/增量)数据进出通道。详细的数据源类型列表请参见支持数据源类型。用户可以通过数据集成(Data Integration)向云产品 Table Store 进行数据的导入和数据导出。

新添加TableStore作为数据源

只有项目管理员角色才能够新建数据源,其他角色的成员仅能查看数据源。

  1. 以项目管理员身份进入数加管理控制台,单击项目列表下对应项目操作栏中的进入工作区

  2. 进入顶部菜单栏中的数据集成页面,单击左侧导航栏中的数据源

  3. 单击右上角的新增数据源

    add_source.png

  4. 在新增数据源弹出框中填写相关配置项。

    config.png

    参数说明如下:

    配置项 说明
    数据源名称 由英文字母、数字、下划线组成,且必须以字符或下划线开头,长度不超过 60 个字符。
    数据源描述 对数据源进行简单描述,不得超过 80 个字符。
    数据源类型 选择 ots
    OTS Endpoint Table Store 服务的 Endpoint,一般的格式为http://instancename.cn-hangzhou.ots.aliyuncs.com。详情请参见访问控制
    OTS 实例 ID Table Store 服务对应的实例名称。
    Access Id/Access Key 访问密钥 AccessKey(AK),相当于登录密码。
  5. 完成上述信息项的配置后,单击测试连通性。

  6. 测试连通性通过后,单击确定

脚本模式配置同步任务

  1. 以项目管理员身份进入数加管理控制台,单击大数据开发套件下对应项目操作栏中的进入工作区

    sync.png

  2. 进入顶部菜单栏中的数据集成页面,选择脚本模式

    script.png

OTSReader脚本配置:

  1. {
  2. "configuration": {
  3. "setting": {
  4. "speed": {
  5. "concurrent": "1",//并发的数目
  6. "mbps": "1"//一个并发的速率上线,这里配置1的意思是1MB/S
  7. },
  8. "errorLimit": {
  9. "record": "0"//错误记录数,超过这个错误数会导致任务失败
  10. }
  11. },
  12. "reader": {
  13. "parameter": {
  14. "maxRetryTime": 3,//重试次数,默认是3次
  15. "range": {
  16. // 表的分区情况,如果不配置则自动按并发度划分,可以通过TableStore的DescribeTable接口获取,配置后性能更佳。
  17. "split": [],
  18. // 导出数据的起始主键范围
  19. // 支持INF_MIN, INF_MAX, STRING, INT
  20. "begin": [
  21. {
  22. "type": "INF_MIN",//指定第一个主键列的起始值
  23. "type": "INF_MIN"//指定第二个主键列的起始值
  24. }
  25. ],
  26. //导出数据的结束主键范围
  27. // 支持INF_MIN, INF_MAX, STRING, INT
  28. "end": [
  29. {
  30. "type": "INF_MAX",//指定第一个主键列的结束值
  31. "type": "INF_MAX"//指定第二个主键列的结束值
  32. }
  33. ]
  34. },
  35. //重试的间隔时间,以毫秒为单位,一般都不需要配置,用默认的值
  36. "retrySleepInMillionSecond": 100,
  37. // 需要导出的列名,支持重复类和常量列,区分大小写
  38. // 常量列:类型支持STRING,INT,DOUBLE,BOOL和BINARY
  39. // 备注:BINARY需要通过Base64转换为对应的字符串传入插件
  40. "column": [
  41. {
  42. "name": "id"//普通列
  43. },
  44. {
  45. "name": "name"//普通列
  46. },
  47. {
  48. "name": "year"//普通列
  49. }
  50. ],
  51. "table": "table_name",// 导出数据表的表名
  52. "datasource": "ots_datasource"//数据源名,建议数据源都先添加数据源后再配置同步任务,此配置项填写的内容必须与添加的数据源名称保持一致
  53. },
  54. "plugin": "ots"
  55. },
  56. "writer": {}
  57. }

说明:详细配置请参见OTS Reader配置

OTSWriter脚本配置:

  1. {
  2. "type": "job",
  3. "version": "1.0",
  4. "configuration": {
  5. "reader": {},
  6. "writer": {
  7. "parameter": {
  8. "writeMode": "PutRow",//写入模式,目前支持三种类型:单行操作、批量操作、范围读取
  9. "primaryKey": [
  10. //OTS 的主键信息
  11. {
  12. "name": "id",//主键列名
  13. "type": "STRING"//主键类型
  14. }
  15. ],
  16. "column": [
  17. {
  18. "name": "name",//列名
  19. "type": "string"//类型
  20. },
  21. {
  22. "name": "year",//列名
  23. "type": "int"//类型
  24. }
  25. ],
  26. "table": "table_name",//目标表名
  27. "datasource": "ots_datasource"//数据源名,建议数据源都先添加数据源后再配置同步任务,此配置项填写的内容必须与添加的数据源名称保持一致
  28. },
  29. "plugin": "ots"
  30. }
  31. }
  32. }

说明:详细配置请参见 OTS Writer配置

本文导读目录
本文导读目录
以上内容是否对您有帮助?