本文为您介绍PAI-Studio提供的源/目标组件,包括读数据表、写数据表、MySQL数据同步及OSS数据同步。
读数据表
读数据表组件用于读取MaxCompute表数据,默认读取本项目的表数据。如果跨项目读取表数据,则需要在表名前添加工程名。PAI-Studio仅支持通过可视化方式,配置该组件参数。
页签 | 参数 | 描述 |
---|---|---|
表选择 | 表名 | 读取的MaxCompute表名称。如果跨项目读取表数据,则表名需要使用工程名.表名格式,例如tianchi_project.weibo_data。 注意 如果MaxCompute表字段被修改,PAI-Studio算法平台不能自动同步,您需要手动重新配置MaxCompute源。 |
分区 | 如果输入表为分区表,则系统自动选中分区复选框。 | |
参数 | 分区参数,仅支持单个分区。格式为dt=@@{yyyyMMdd},其中@@{yyyyMMdd}表示当前日期,@@{yyyyMMdd-1d}表示当前日期的前一天。如果未配置该参数,则表示输入全表。 | |
字段信息 | 源表字段信息 | 输入表名后,系统自动读取表的结构数据。 |
写数据表
写数据表组件将数据写入MaxCompute表,且不支持分区操作。PAI-Studio仅支持通过可视化方式,配置该组件参数。
参数 | 描述 |
---|---|
新表名 | 写入数据的MaxCompute表名称。如果写入分区表,则需要先创建待写入的分区表,再使用该组件写入数据。 |
分区 | 写入表是否为分区表的开关。 |
设置生命周期 | 取值范围为整数。如果该参数值为空,则表示无生命周期。 |
MySQL数据同步
MySQL数据同步组件将MySQL数据同步至MaxCompute项目。PAI-Studio仅支持通过可视化方式,配置该组件参数。
参数 | 描述 |
---|---|
实例名称 | RDS的实例名称。您可以通过以下步骤查询该参数值:
|
数据库 | RDS数据库名称。您可以通过以下步骤查询该参数值:
|
数据表 | 待同步的数据表。 |
用户名 | RDS数据库的用户名。您可以通过以下步骤查询该参数值:
|
密码 | RDS数据库密码。 |
同步的字段 | 默认同步该数据库的所有字段。 |
允许脏数据阈值 | 允许的数据错误数,默认值为0。 |
同步数据带宽 | 单位为MB/s,默认值为1 MB/s。 |
OSS数据同步
OSS数据同步组件将OSS文本同步至MaxCompute数据表。PAI-Studio仅支持通过可视化方式,配置该组件参数。
参数 | 描述 |
---|---|
OSS Endpoint | OSS存储服务所在的Endpoint。 |
OSS AccessID | OSS服务的AccessID。 |
OSS AccessKey | OSS服务的AccessKey。 |
Bucket | OSS服务的Bucket。 |
Object | 待同步的OSS Object。 |
OSS Column映射 | 同步的字段映射格式为Index:Name,表示将OSS的第Index列同步至MaxCompute的Name字段。多列采用逗号分隔,例如0:label,1:s_width,2:s_length,3:v_width,4:v_length。 |
OSS文本分隔符 | OSS Object的文本分隔符,默认使用英文逗号(,)分隔。 |
OSS文本压缩格式 | 支持无压缩、gzip、zip及bzip2格式。 |
OSS文本编码 | OSS文本的编码方式,仅支持utf-8。 |
同步数据带宽 | 单位为MB/s,默认值为1 MB/s。 |
允许脏数据阈值 | 允许的数据错误数,默认值为0。 |
您可以登录OSS控制台,查询OSS相关参数。
在文档使用中是否遇到以下问题
更多建议
匿名提交