使用MaxCompute控制台(离线)

MaxCompute控制台提供数据上传功能,支持您将本地文件或阿里云对象存储服务OSS中的文件数据离线(非实时)上传至MaxCompute进行分析处理及相关管理操作。

使用限制

  • 仅支持基于本地文件阿里云对象存储OSS上传数据,具体如下。

    • 本地文件:支持上传CSV或XLSX格式的文件数据。

      • CSV格式:最大支持上传5 GB数据

      • XLSX格式:最大支持上传100 MB数据。

    • 阿里云对象存储OSS:仅支持上传CSV格式的文件数据,数据量最大支持5 GB,且该数据所在的Bucket必须与当前MaxCompute项目位于同一地域。

  • 不支持将数据上传到具有自定义Schema的表中(包括已有表和新建表),自定义Schema相关信息请参见Schema操作

前提条件

  • 已创建MaxCompute项目,用于存放上传的数据。同时您需拥有对应的数据权限,如:

    • 上传至已有表:需具备对应表的数据写入权限。

    • 上传至新增表:需具备对应项目的创建表权限。

    创建MaxCompute项目详情请参见项目管理(新版),授权操作请参见权限概述

  • 基于阿里云对象存储OSS上传数据时,需满足以下条件:

    • 已开通OSS并创建Bucket,将待上传数据存储至OSS Bucket中。详情请参见创建存储空间上传文件

    • 已为操作数据上传的阿里云账号授予可访问目标Bucket的权限,详情请参见访问控制概述

操作步骤

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏选择数据传输 > 数据上传,进入数据上传页面。

  3. 数据上传页面参考表1 上传目标数据配置各项参数。

    表 1. 上传目标数据

    类别

    参数名

    描述

    数据来源

    本地文件

    基于本地文件上传数据。

    仅支持上传一个CSV文件或XLSX文件:

    • CSV文件:最大支持上传5 GB数据,文件里的数据以半角逗号(,)分隔。

    • XLSX文件:最大支持上传100 MB数据。默认仅上传XLSX文件中首个Sheet页的数据,如果有多个Sheet,则其他Sheet的数据将被忽略。

    阿里云对象存储OSS

    基于阿里云对象存储OSS上传数据。

    仅支持选择当前地域下Bucket中的CSV文件。支持单次上传的最大数据量为5 GB,若无可访问的Bucket,需要新建Bucket,详情请参见创建存储空间

    说明

    若待上传的数据量超过5 GB,您可以将数据进行拆分上传,否则会导致上传失败。

    指定待上传数据

    选择Bucket

    数据来源指定为阿里云对象存储OSS时,选择目标文件所在的OSS Bucket路径。

    选择文件

    选择目标CSV文件或XLSX文件。

    是否剔除脏数据

    根据需要选择在上传文件数据时,是否剔除待上传文件中与MaxCompute目标表的列类型不统一的数据。

    说明

    例如:待上传的数据中,某列值为含字母的字符串类型,但对应目标表的列是BIGINT类型,那么该数据将被视为脏数据。若选择了剔除脏数据,则该条数据不会被上传。

    • :剔除待上传文件中与目标表中的列类型不统一的数据。

    • :数据全量上传。

    设置目标表

    MaxCompute项目名称

    存放数据的MaxCompute项目。

    目标表

    根据需要选择将数据上传至已有表还是新建表:

    表 2. 上传数据至已有表

    参数名

    描述

    选择目标表

    在下拉列表中选择存放待上传数据的MaxCompute表。支持通过关键字匹配搜索。

    上传方式

    根据配置的目标表映射关系,将待上传数据以指定方式添加至目标表中。

    • 先清空表数据:直接覆盖目标表中相应映射字段的数据。

    • 追加:将待上传数据追加至目标表映射字段中。

    说明

    配置映射关系,详情请参见预览待上传数据并设置目标表字段。

    表 3. 上传数据至新建表

    参数名

    描述

    表名

    自定义表名称。

    表类型

    根据需要选择非分区表分区表,若选择分区表,则需指定分区字段及其取值。

    生命周期

    指定表的可用周期,过期后该表可能无法使用。表生命周期详情请参见生命周期生命周期操作

  4. 预览待上传数据并设置目标表字段。

    选择待上传数据及存放该数据的目标表后,您可预览数据详情,并配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传,配置方式如下。

    说明

    目前仅支持预览前20条数据。

    类别

    参数名

    描述

    上传文件数据预览

    文件编码

    若文件存在乱码,则可切换可用编码。支持选择UTF-8GB18030Big5

    按列名映射

    将待上传文件中的列与目标表中的列基于列名进行对应导入。

    按顺序映射

    将待上传文件中的数据按字段顺序导入目标表。

    忽略首行

    是否将待上传文件数据的首行(通常为列名称)上传至目标表中。

    • 勾选:文件首行不上传至目标表中。

    • 不勾选:文件首行将上传至目标表中。

  5. 单击上传数据,提交上传。

    重要
    • 若待上传数据与目标表字段不存在映射关系,则该数据将会被置灰,且不会被上传。

    • 待上传数据与目标表字段不能存在重复映射关系。

    • 字段名称和字段类型不能为空,否则数据无法上传。

查看上传记录

提交上传后,若数据量较大,需要耗费一些时间,您无需在提交页面一直等待,可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。

说明

通过该页面的查看上传记录查询到的记录详情也包含使用DataWorks数据上传操作产生的记录。

后续操作

数据上传成功后,您可根据需要通过连接工具对MaxCompute目标表进行数据查询。