全部产品

源/目标

更新时间:2020-10-21 13:40:52

本文为您介绍PAI-Studio提供的源/目标组件,包括读数据表、写数据表、MySQL数据同步及OSS数据同步。

读数据表

读数据表组件用于读取MaxCompute表数据,默认读取本项目的表数据。如果跨项目读取表数据,则需要在表名前添加工程名。PAI-Studio仅支持通过可视化方式,配置该组件参数。

页签

参数

描述

表选择

表名

读取的MaxCompute表名称。如果跨项目读取表数据,则表名需要使用工程名.表名格式,例如tianchi_project.weibo_data

注意

如果MaxCompute表字段被修改,PAI-Studio算法平台不能自动同步,您需要手动重新配置MaxCompute源。

分区

如果输入表为分区表,则系统自动选中分区复选框。

参数

分区参数,仅支持单个分区。格式为dt=@@{yyyyMMdd},其中@@{yyyyMMdd}表示当前日期,@@{yyyyMMdd-1d}表示当前日期的前一天。如果未配置该参数,则表示输入全表。

字段信息

源表字段信息

输入表名后,系统自动读取表的结构数据。

写数据表

写数据表组件将数据写入MaxCompute表,且不支持分区操作。PAI-Studio仅支持通过可视化方式,配置该组件参数。

参数

描述

新表名

写入数据的MaxCompute表名称。如果写入分区表,则需要先创建待写入的分区表,再使用该组件写入数据。

分区

写入表是否为分区表的开关。

设置生命周期

取值范围为整数。如果该参数值为空,则表示无生命周期。

MySQL数据同步

MySQL数据同步组件将MySQL数据同步至MaxCompute项目。PAI-Studio仅支持通过可视化方式,配置该组件参数。

参数

描述

实例名称

RDS的实例名称。您可以通过以下步骤查询该参数值:

  1. 使用主账号登录RDS控制台

  2. 在左侧导航栏,单击实例列表

  3. 云数据库管理页面的基本信息页签,查看实例ID/名称

数据库

RDS数据库名称。您可以通过以下步骤查询该参数值:

  1. 设置白名单,详情请参见设置RDS实例白名单

  2. 连接数据库,详情请参见登录RDS数据库

  3. 查看数据库的datebasetableschema

数据表

待同步的数据表。

用户名

RDS数据库的用户名。您可以通过以下步骤查询该参数值:

  1. 云数据库管理页面的基本信息页签,单击实例ID/名称

  2. 在实例详情页面的左侧导航栏,单击账号管理

  3. 用户账号页签,查看数据库账号。

密码

RDS数据库密码。

同步的字段

默认同步该数据库的所有字段。

允许脏数据阈值

允许的数据错误数,默认值为0

同步数据带宽

单位为MB/s,默认值为1 MB/s。

OSS数据同步

OSS数据同步组件将OSS文本同步至MaxCompute数据表。PAI-Studio仅支持通过可视化方式,配置该组件参数。

参数描述
OSS EndpointOSS存储服务所在的Endpoint。
OSS AccessIDOSS服务的AccessID。
OSS AccessKeyOSS服务的AccessKey。
BucketOSS服务的Bucket。
Object待同步的OSS Object。
OSS Column映射同步的字段映射格式为Index:Name,表示将OSS的第Index列同步至MaxCompute的Name字段。多列采用逗号分隔,例如0:label,1:s_width,2:s_length,3:v_width,4:v_length
OSS文本分隔符OSS Object的文本分隔符,默认使用英文逗号(,)分隔。
OSS文本压缩格式支持无压缩gzipzipbzip2格式。
OSS文本编码OSS文本的编码方式,仅支持utf-8
同步数据带宽单位为MB/s,默认值为1 MB/s。
允许脏数据阈值允许的数据错误数,默认值为0
说明

您可以登录OSS控制台,查询OSS相关参数,详情请参见OSS官方文档