MaxCompute控制台提供数据上传功能,支持您将本地文件或阿里云对象存储服务OSS中的文件数据离线(非实时)上传至MaxCompute进行分析处理及相关管理操作。
使用限制
仅支持基于本地文件或阿里云对象存储OSS上传数据,具体如下。
本地文件:支持上传CSV或XLSX格式的文件数据。
CSV格式:最大支持上传5 GB数据
XLSX格式:最大支持上传100 MB数据。
阿里云对象存储OSS:仅支持上传CSV格式的文件数据,数据量最大支持5 GB,且该数据所在的Bucket必须与当前MaxCompute项目位于同一地域。
不支持将数据上传到具有自定义Schema的表中(包括已有表和新建表),自定义Schema相关信息请参见Schema操作。
前提条件
操作步骤
登录MaxCompute控制台,在左上角选择地域。
在左侧导航栏选择数据传输 > 数据上传,进入数据上传页面。
在数据上传页面参考表1 上传目标数据配置各项参数。
表 1. 上传目标数据
类别
参数名
描述
数据来源
本地文件
基于本地文件上传数据。
仅支持上传一个CSV文件或XLSX文件:
CSV文件:最大支持上传5 GB数据,文件里的数据以半角逗号(,)分隔。
XLSX文件:最大支持上传100 MB数据。默认仅上传XLSX文件中首个Sheet页的数据,如果有多个Sheet,则其他Sheet的数据将被忽略。
阿里云对象存储OSS
基于阿里云对象存储OSS上传数据。
仅支持选择当前地域下Bucket中的CSV文件。支持单次上传的最大数据量为5 GB,若无可访问的Bucket,需要新建Bucket,详情请参见创建存储空间。
说明若待上传的数据量超过5 GB,您可以将数据进行拆分上传,否则会导致上传失败。
指定待上传数据
选择Bucket
数据来源指定为阿里云对象存储OSS时,选择目标文件所在的OSS Bucket路径。
选择文件
选择目标CSV文件或XLSX文件。
是否剔除脏数据
根据需要选择在上传文件数据时,是否剔除待上传文件中与MaxCompute目标表的列类型不统一的数据。
说明例如:待上传的数据中,某列值为含字母的字符串类型,但对应目标表的列是BIGINT类型,那么该数据将被视为脏数据。若选择了剔除脏数据,则该条数据不会被上传。
是:剔除待上传文件中与目标表中的列类型不统一的数据。
否:数据全量上传。
设置目标表
MaxCompute项目名称
存放数据的MaxCompute项目。
目标表
根据需要选择将数据上传至已有表还是新建表:
已有表:配置方式请参见表2 上传数据至已有表。
新建表:配置方式请参见表3 上传数据至新建表。
表 2. 上传数据至已有表
参数名
描述
选择目标表
在下拉列表中选择存放待上传数据的MaxCompute表。支持通过关键字匹配搜索。
上传方式
根据配置的目标表映射关系,将待上传数据以指定方式添加至目标表中。
先清空表数据:直接覆盖目标表中相应映射字段的数据。
追加:将待上传数据追加至目标表映射字段中。
说明配置映射关系,详情请参见预览待上传数据并设置目标表字段。
表 3. 上传数据至新建表
参数名
描述
表名
自定义表名称。
表类型
根据需要选择非分区表或分区表,若选择分区表,则需指定分区字段及其取值。
生命周期
预览待上传数据并设置目标表字段。
选择待上传数据及存放该数据的目标表后,您可预览数据详情,并配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传,配置方式如下。
说明目前仅支持预览前20条数据。
类别
参数名
描述
上传文件数据预览
文件编码
若文件存在乱码,则可切换可用编码。支持选择UTF-8、GB18030或Big5。
按列名映射
将待上传文件中的列与目标表中的列基于列名进行对应导入。
按顺序映射
将待上传文件中的数据按字段顺序导入目标表。
忽略首行
是否将待上传文件数据的首行(通常为列名称)上传至目标表中。
勾选:文件首行不上传至目标表中。
不勾选:文件首行将上传至目标表中。
单击上传数据,提交上传。
重要若待上传数据与目标表字段不存在映射关系,则该数据将会被置灰,且不会被上传。
待上传数据与目标表字段不能存在重复映射关系。
字段名称和字段类型不能为空,否则数据无法上传。
查看上传记录
提交上传后,若数据量较大,需要耗费一些时间,您无需在提交页面一直等待,可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。
通过该页面的查看上传记录查询到的记录详情也包含使用DataWorks数据上传操作产生的记录。
后续操作
数据上传成功后,您可根据需要通过连接工具对MaxCompute目标表进行数据查询。