全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网
机器学习PAI

源/目标

更新时间:2017-07-17 16:57:53


目录


读数据表

读取Maxcompute的表数据组件,默认读取本工程下的数据;若读取其他工程的表数据且拥有该project的操作权限),只需在表名前添加工程名,格式:工程名.表名,如:tianchi_project.weibo_data当输入表后,会自动读取表的结构数据,可点击字段信息查看。MaxCompute表字段修改后,如增加或删除某个字段,在算法平台中是无法感知的,需要用户重新设置一下MaxCompute源,reload一下这个表信息。

若输入表是分区表,后台会自动勾选分区框,用户可选择或输入分区参数,目前仅支持输入单个分区。不勾选分区框或勾选后不输入分区参数均默认为输入全表。若输入表是非分区表,分区框不可勾选

读MaxCompute表的输入框

左上角为创建odps表的功能;

分区功能介绍

PAI的读数据组件包含读取分区表的功能,在日期定义上与大数据开发套件略有不同。PAI在读取分区表时需要指定dt=@@{yyyyMMdd},其中@@{yyyyMMdd}表示当前日期,@@{yyyyMMdd-1d}表示当前日期前一天。

写数据表

写入MaxCompute表的数据组件,同样支持写入其他工程的表数据。写入表数据不支持分区操作

Mysql数据同步

功能说明

  • 同步Mysql 数据到MaxCompute 项目

参数说明

参数名称 参数描述 取值范围 是否必选,默认值/行为
source cdp 同步数据源标识,常量为 cdp_mysql cdp_mysql cdp_mysql
project_name 必填,ODPS项目的Project Name - -
access_id 必填,ODPS项目的access_id - -
access_key 必填,ODPS项目的access_key - -
end_point 必填,ODPS项目的end_point - http://service.odps.aliyun.com/api
instanceName 必填,RDS的实例名称 -
database 必填,RDS数据库 -
username 必填,RDS该数据库的用户名 - -
password 必填,RDS该数据库密码 - -
table 必填,欲同步的数据表 - -
column 选填,默认同步该数据库所有字段 -
outputTable 必填,RDS该数据库密码 - -
mbps 选填,数据同步带宽 单位MB/s 1
errorLimit 选填,数据错误数,默认0容忍数据错误 - 0
lifecycle 输出结果表的生命周期 - 7

ps:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者datax

如何获取组件参数

1. 登录aliyun.com,使用主账号登录,切换到rds控制台,如下图所示,获取rds的accessKey 和 获取实例名称

image

2. 添加白名单。 由于rds对访问的ip有限制,需要点击 数据安全性 ,添加白名单,其中 0.0.0.0/0表示运行任意ip访问.

imageimage

3. 点击实例链接,可以查看实例的详细信息,比如账号信息(如果没有账号,可以新建一个账号),数据库信息

image

image

4. 在 数据库链接 一栏中点击 登录数据库

image

image

5. 登录后,可以查看数据库 database, 数据库下对应的table和schema

image

OSS数据同步

功能说明

  • 同步OSS的文本到ODPS 数据源

ps: cdp服务不提供命令行执行语句

参数说明

参数名称 参数描述 取值范围 是否必选,默认值/行为
source cdp 同步数据源标识,常量为 cdp_mysql cdp_mysql cdp_mysql
project_name 必填,ODPS项目的Project Name - -
access_id 必填,ODPS项目的access_id - -
access_key 必填,ODPS项目的access_key - -
end_point 必填,ODPS项目的end_point - http://service.odps.aliyun.com/api
OSSendpoint 必填,OSS存储服务所在的endpoint oss-cn-xxxx.aliyuncs.com oss-cn-shanghai.aliyuncs.com
OSSaccessId 必填,OSS服务的accessId - -
OSSaccessKey 必填,OSS服务的accessKey - -
bucket 必填,OSS服务的bucket - -
object 必填,欲同步的OSS object - -
OSScolumn 必填,同步的字段映射.格式是index:name,表示OSS第index列同步到ODPS字段名为name的字段中,字段类型默认string,比如0:label,1:s_width,2:s_length,3:v_width,4:v_length - -
fieldDilimeter 必填,OSS object的文本分隔符(列分隔符) 逗号 ,
encoding 选填,OSS文本的编码 utf-8 utf-8
compress 选填,OSS文本压缩格式,默认无 gzip,zip,bzip2
mbps 选填,数据同步带宽 单位MB/s 1
errorLimit 选填,数据错误数,默认0容忍数据错误 - 0
lifecycle 输出结果表的生命周期 - 7

ps:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者datax

如何获取组件参数

1 使用主账号登录 aliyun.com,切换到OSS 控制台,点击界面右上角的accessKey,获取accessId和accessKey
2 在OSS控制台,可以看到用户拥有的 bucket,比如下图bucket名为nianjun-test(没有可以创建), 点击bucket,进入bucket的详情,左边栏有Bucket属性,Object管理等. 从中可以获取bucket,object等信息.

3 点击Bucket概览,可以获取该OSS bucket所在的endpoint

本文导读目录