数据上传

DataWorks的数据上传功能支持将本地文件、数据分析的电子表格、OSS文件、HTTP文件等数据上传至MaxCompute、EMR Hive、Hologres、StarRocks等引擎进行分析及管理,为您提供便捷的数据传输服务,助力您快速实现数据驱动业务。本文为您介绍如何使用数据上传功能上传数据。

注意事项

  • 如您涉及跨境操作数据上传(例如,数据从中国境内传输至中国境外、数据在不同国家/地区间传输等),请提前了解相关合规声明,否则可能导致数据上传失败并将承担相应法律责任。

  • 在进行数据上传前,建议将您要上传的数据表头信息设置为英文。如果表头信息为中文,可能会导致解析失败,从而引发上传错误。

使用限制

  • 资源组限制:数据上传功能需指定调度资源组数据集成资源组

  • 表限制:仅支持将目标数据上传至自己名下的表(即您为表的Owner)。具体表现为以下场景:

    • 数据地图的表详情页显示您为该表的Table Owner。查看表详情,请参见查看表详情

    • 该表是您通过数据上传功能上传数据时新建的表。

计费说明

数据上传会产生如下费用:

  • 数据传输费用。

  • 若涉及新建表,会收取计算和存储费用。

以上费用均由引擎侧收取,具体费用请参见相应引擎的计费文档MaxCompute计费Hologres计费E-MapReduce计费EMR Serverless StarRocks产品计费

进入数据上传页面

  1. 进入数据上传与下载页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据集成 > 数据上传与下载,单击进入数据上传与下载,进入上传与下载页面。

  2. 单击左侧导航栏的image图标,进入数据上传页面。

  3. 单击数据上传,根据界面指引上传目标数据。

选择待上传文件数据

支持上传本地文件、电子表格、阿里云对象存储OSSHTTP文件数据,您可根据实际业务情况选择数据来源来上传文件数据。

说明

在进行文件上传时,根据需要设置是否需要剔除脏数据。

  • :如遇脏数据,平台会自动忽略,继续上传数据。

  • :如遇脏数据,平台不会自动忽略,此次数据上传将被阻断。

本地文件

如果待上传的文件数据为本地文件,可以选择此方式进行上传。

  1. 数据来源选择本地文件

  2. 指定待上传数据:根据界面指引将需要上传的本地文件拖拽至选择文件区域。

    说明
    • 支持CSVXLSXLSXJSON格式,CSV文件最大支持上传的数据量为5GB,其他文件最大支持上传的数据量为100MB

    • 默认上传文件的第一个Sheet。如需上传某个文件的多个Sheet数据,则需为每个Sheet创建一个表格,并将其作为表格的第一个Sheet。

    • 暂不支持上传SQL格式文件。

电子表格

如果待上传的文件数据为DataWorks数据分析的电子表格,可以选择此方式进行上传。

  1. 数据来源选择电子表格

  2. 指定待上传数据

    1. 选择文件后面的下拉框中选择需要上传的电子表格文件。

    2. 如果电子表格不存在,可单击旁边的新建按钮进行创建,也可通过数据分析模块创建电子表格导入数据

对象存储OSS

如果待上传的文件数据为阿里云对象存储OSS数据,可以选择此方式进行上传。

前提条件

  • 已开通创建OSS存储空间,将待上传文件数据存储至OSS Bucket中。后续可将OSS数据上传至相应数据源。

  • 为避免权限限制,请在上传数据前,通过权限控制为执行数据上传操作的阿里云账号授予访问目标Bucket的权限。

上传步骤

  1. 数据来源选择阿里云对象存储OSS

  2. 指定待上传数据

    1. 选择Bucket下拉框中,选择存储待上传数据的目标OSS Bucket。

      说明

      仅支持上传与当前DataWorks工作空间同地域的Bucket数据。

    2. 在选择文件区域,选择您所需上传的文件数据。

      说明

      仅支持上传CSVXLSXLSXJSON格式的文件数据。

HTTP文件

如果待上传的文件数据为HTTP文件,可以选择此方式进行上传。

  1. 数据来源选择HTTP文件

  2. 指定待上传数据

    参数

    配置说明

    文件地址

    选择存放文件数据的地址。

    说明

    支持HTTPHTTPS格式的文件地址。

    文件类型

    根据您所上传的文件类型进行自动识别。

    支持CSVXLSXLSX格式的文件类型。CSV文件最大支持上传的数据量为5GB,其他文件最大支持上传的数据量为50MB。

    请求Method

    支持GETPOSTPUT三种方式。通常建议使用GET请求获取数据,但具体可根据您定义的允许请求方法(Method)进行设定。

    高级参数

    您也可根据业务情况,在高级参数里面设置请求Header请求Body信息。

设置数据存储目标表

您可以在设置目标表区域选择数据上传的目标引擎,并根据所选引擎配置相关参数。

重要

在设置数据存储目标表时,选择数据源时需注意区分 PROD(生产环境)和 DEV(开发环境)。如果选择错误,会导致数据上传到其他环境。

MaxCompute

如需将数据上传到MaxCompute对应的表中,可参考下表进行相关参数配置。

参数

配置说明

MaxCompute项目名称

支持选择您在当前地域绑定的MaxCompute数据源。如未找到所需上传的数据源,可通过在当前工作空间绑定MaxCompute计算资源来生成同名的数据源。

目标表

支持选择已有表新建表

目标表 > 已有表

选择目标表

存放待上传数据的表。支持通过关键字匹配搜索。

说明

仅支持将目标数据上传至自己名下的表(即您为表的Owner),详情请参见使用限制

上传方式

选择以哪种方式将待上传数据添加至目标表中。

  • 先清空表数据:先清空目标表数据,再将数据全量导入至目标表中相应的映射字段。

  • 追加:将待上传数据追加至目标表相应映射字段中。

目标表 > 新建表

表名

自定义新建表表名。

说明

MaxCompute引擎新建表过程,使用的是DataWorks计算资源里面配置的MaxCompute账号信息,然后在MaxCompute对应项目中进行建表操作。

表类型

根据需要选择非分区表分区表。若选择分区表,则需指定分区字段及其取值。

生命周期

指定表的可用周期,过期后该表可能无法使用。更多表生命周期的介绍,详情请参见生命周期生命周期操作

EMR HIVE

如需将数据上传到EMR HIVE对应的表中,可参考下表进行相关参数配置。

参数

配置说明

数据源

支持选择您在当前地域工作空间绑定的EMR Hive数据源(阿里云实例模式)

目标表

仅支持将数据上传到已有表

选择目标表

存放待上传数据的表。支持通过关键字匹配搜索。

说明
  • 如果目标表不存在,可按照界面提示前往数据开发的表管理中创建表。

  • 仅支持将目标数据上传至自己名下的表(即您为表的Owner),详情请参见使用限制

上传方式

选择以哪种方式将待上传数据添加至目标表中。

  • 先清空表数据:先清空目标表数据,再将数据全量导入至目标表中相应的映射字段。

  • 追加:将待上传数据追加至目标表相应映射字段中。

Hologres

如需将数据上传到Hologres对应的表中,可参考下表进行相关参数配置。

参数

配置说明

数据源

支持选择您在当前地域工作空间绑定的Hologres数据源。如未找到所需上传的数据源,可通过在当前工作空间绑定Hologres计算资源来生成同名的数据源。

目标表

仅支持将数据上传到已有表

选择目标表

存放待上传数据的表。支持通过关键字匹配搜索。

说明
  • 如果目标表不存在,可按照界面提示前往Hologres控制台创建表。

  • 仅支持将目标数据上传至自己名下的表(即您为表的Owner),详情请参见使用限制

上传方式

选择以哪种方式将待上传数据添加至目标表中。

  • 先清空表数据:先清空目标表数据,再将数据全量导入至目标表中相应的映射字段。

  • 追加:将待上传数据追加至目标表相应映射字段中。

主键冲突策略

若上传数据导致目标表主键冲突,可采取如下处理策略。

  • 忽略:忽略上传的数据,目标表中的数据不会更新。

  • 更新(replace):上传的数据会全量覆盖目标表的旧数据,未配置列映射的字段强制写为NULL。

  • 更新(update):上传的数据覆盖目标表的旧数据,但仅覆盖配置有列映射的字段数据。

StarRocks

如需将数据上传到StarRocks对应的表中,可参考下表进行相关参数配置。

参数

配置说明

数据源

支持选择您在当前地域工作空间绑定的StarRocks数据源

目标表

仅支持将数据上传到已有表

选择目标表

存放待上传数据的表。支持通过关键字匹配搜索。

说明
  • 如果目标表不存在,可按照界面提示前往EMR Serverless StarRocks实例页创建表。

  • 仅支持将目标数据上传至自己名下的表(即您为表的Owner),详情请参见使用限制

上传方式

选择以哪种方式将待上传数据添加至目标表中。

  • 先清空表数据:先清空目标表数据,再将数据全量导入至目标表中相应的映射字段。

  • 追加:将待上传数据追加至目标表相应映射字段中。

高级参数

可配置Stream Load请求参数。

预览待上传文件数据

设置数据存储目标表后,您可根据数据预览情况调整文件编码和数据映射关系。

说明

目前仅支持预览前20条数据。

  • 文件编码:若数据存在乱码,则可切换编码格式。支持选择UTF-8GB18030Big5UTF-16LEUTF-16BE

  • 预览数据并设置目标表字段:

    • 上传数据至已有表:需配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。映射方式包括按列名映射按顺序映射。映射后您也可自定义目标表的字段名称。

      说明
      • 若待上传数据与目标表字段不存在映射关系,则该数据将会被置灰,且不会被上传。

      • 待上传数据与目标表字段不能存在重复映射关系。

      • 字段名称和字段类型不能为空,否则数据无法上传。

    • 上传数据至新建表:可通过智能字段生成自动填充字段信息,也可手动修改字段信息。

      说明
      • 字段名称和字段类型不能为空,否则数据无法上传。

      • EMR Hive、Hologres、StarRocks引擎不支持在数据上传新建表。

  • 忽略首行:是否将文件数据的首行(通常为列名称)上传至目标表中。

    • 勾选:文件首行为列名时,首行不上传至目标表。

    • 不勾选:文件首行为数据时,首行上传至目标表。

上传数据

完成数据预览操作后,您可单击左下方的数据上传按钮,对数据进行上传。

后续操作

数据上传成功后,您可单击左侧导航栏的image图标,进入数据上传页面,找到已创建的数据上传任务,并根据需求执行相关操作:

  • 继续上传:单击操作栏的继续上传,对数据进行再次上传。

  • 数据查询:单击操作栏的数据查询,对数据进行查询与分析

  • 查看上传数据详情:单击目标表名称,即可进入数据地图查看目标表详细信息。详情请参见通用数据查询与管理

附录:跨境操作数据上传的合规声明

重要

如您涉及跨境操作数据上传(例如,数据从中国境内传输至中国境外、数据在不同国家/地区间传输等),请提前了解相关合规声明,否则可能导致数据上传失败并将承担相应法律责任。

数据跨境操作将导致您的云上业务数据传输至您所选择的区域或产品部署区域,您应确保相关操作遵循如下要求:

  • 拥有相关云上业务数据的处理权限。

  • 采取充分的数据安全保护技术及策略。

  • 数据传输行为符合相关法律法规的要求。例如,传输的数据不含任何所适用法律限制、禁止传输或披露的内容。

阿里云特别提示您,若您的数据上传操作可能导致数据跨境传输,请在开展相关操作前咨询专业的法律或合规人员,确保数据跨境传输行为符合所适用的法律法规及监管政策的要求(例如,获得个人信息主体的有效授权、完成相关合同条款的签署及备案、完成相关安全评估等法定义务)。

若未遵守该合规声明便开展数据跨境操作,您将承担对应的法律后果。同时,导致阿里云及其关联公司遭受的任何损失,您应承担赔偿责任。

相关文档

常见问题

  1. 配置资源组问题。

    报错信息:当前文件来源或者目标引擎需要配置资源组进行数据上传,请联系空间管理员进行资源组的配置。

    解决方案:通过数据分析配置引擎使用的资源组,请参见系统管理

  2. 绑定资源组问题。

    报错信息:您当前空间配置的全局数据上传使用的资源组和上传表所属的工作空间未进行绑定,请联系空间管理员进行绑定。

    解决方案:您可将您在系统管理设置的资源组,绑定为工作空间资源组