全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 更多
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 智能硬件
阿里云机器学习

源/目标

更新时间:2018-04-08 15:47:51


目录


读数据表

读取Maxcompute的表数据组件,默认读取本工程下的数据。若读取其他工程的表数据且拥有该工程的操作权限,只需在表名前添加工程名,格式:工程名.表名,如:tianchi_project.weibo_data。

  • 读MaxCompute表的输入框:当输入表名后,会自动读取表的结构数据,可单击字段信息查看。

    注意:MaxCompute表字段修改后,如果增加或删除某个字段,在算法平台中是无法感知的,需要用户重新设置一下MaxCompute源,重新加载这个表信息。

  • 分区功能介绍:

    • 若输入表是分区表,后台会自动勾选分区框,用户可选择或输入分区参数,目前仅支持输入单个分区。
    • 不勾选分区框或勾选后不输入分区参数均默认为输入全表。
    • 若输入表是非分区表,分区框不可勾选。
    • PAI的读数据组件包含读取分区表的功能,在日期定义上与大数据开发套件略有不同。
    • PAI在读取分区表时需要指定dt=@@{yyyyMMdd},其中@@{yyyyMMdd}表示当前日期,@@{yyyyMMdd-1d}表示当前日期前一天。

写数据表

写入MaxCompute表的数据组件,同样支持写入其他工程的表数据。
写入表数据不支持分区操作。

Mysql数据同步

功能说明

同步Mysql数据到MaxCompute项目。

参数说明

参数名称 参数描述 取值范围 默认值/行为
实例名称 必填,RDS的实例名称 NA NA
数据库 必填,RDS数据库名称 NA NA
数据表 必填,欲同步的数据表 NA NA
用户名 必填,RDS该数据库的用户名 NA NA
密码 必填,RDS该数据库密码 NA NA
同步的字段 选填,默认同步该数据库所有字段 NA 所有字段
允许脏数据阈值 选填,数据错误数,默认0容忍数据错误 NA 0
同步数据宽带 选填,数据同步带宽 单位MB/s 1

注意:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者DataX。

如何获取组件参数

  1. 使用主账号登录阿里云官网,切换到RDS控制台,如下图所示,获取RDS的实例名称。

  2. 添加白名单。由于RDS对访问的IP有限制,需要单击实例链接,选择数据安全性,添加白名单。其中 0.0.0.0/0表示运行任意IP访问。

  3. 单击实例链接,可以查看实例的详细信息,比如账号信息(如果没有账号,可以新建一个账号)、数据库信息等。

  4. 在左侧的菜单栏中选择“数据库连接”,单击登录数据库

  5. 登录后可以查看数据库database,数据库下对应的table和schema。image

OSS数据同步

功能说明

同步OSS的文本到ODPS数据源。

说明:CDP服务不提供命令行执行语句。

参数说明

参数名称 参数描述 取值范围 默认值/行为
OSSendpoint 必填,OSS存储服务所在的endpoint oss-cn-xxxx.aliyuncs.com oss-cn-shanghai.aliyuncs.com
OSSaccessId 必填,OSS服务的accessId NA NA
OSSaccessKey 必填,OSS服务的accessKey NA NA
bucket 必填,OSS服务的bucket NA NA
object 必填,欲同步的OSS object NA NA
OSScolumn映射 必填,同步的字段映射.格式是index:name,表示OSS第index列同步到ODPS字段名为name的字段中,字段类型默认string,比如0:label,1:s_width,2:s_length,3:v_width,4:v_length NA NA
OSS文本分隔符 必填,OSS object的文本分隔符(列分隔符) 逗号 ,
OSS文本压缩格式 选填,OSS文本压缩格式,默认无 gzip,zip,bzip2
OSS文本编码 选填,OSS文本的编码 utf-8 utf-8
同步数据带宽 选填,数据同步带宽 单位MB/s 1
允许脏数据阈值 选填,数据错误数,默认0容忍数据错误 NA 0

注意:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者DataX。

如何获取组件参数

  1. 使用主账号登录阿里云官网,切换到OSS控制台。单击界面右侧的Access key,获取AccessId和AccessKey,如下图所示。

  2. 在OSS控制台,可以在左侧列表中搜索用户拥有的Bucket,如果没有可以参考创建OSS存储空间创建Bucket。

  3. 单击Bucket实例链接,进入“概览”页面,可以获取该OSS Bucket所在的Endpoint。

  4. 单击文件管理可以获取Bucket,Object等信息。

本文导读目录