数据上传

DataWorks的数据上传功能支持将本地文件、数据分析的电子表格、OSS文件、HTTP文件等数据上传至MaxCompute、EMR Hive、Hologres等引擎进行分析及管理,为您提供便捷的数据传输服务,助力您快速实现数据驱动业务。本文为您介绍如何使用数据上传功能上传数据。

注意事项

如您涉及跨境操作数据上传(例如,数据从中国境内传输至中国境外、数据在不同国家/地区间传输等),请提前了解相关合规声明,否则可能导致数据上传失败并将承担相应法律责任。详情请参见附录:跨境操作数据上传的合规声明

功能说明

数据上传功能仅支持将本地文件DataWorks数据分析的电子表格阿里云对象存储OSS、HTTP文件的数据上传至MaxComputeEMR HiveHologres引擎的表中。不同数据来源的规则要求如下:

  • 本地文件:

    • 支持CSVXLSXLSXJSON格式,CSV文件最大支持上传的数据量为5GB,其他文件最大支持上传的数据量为100MB。

    • 默认上传文件的第一个Sheet。如需上传某个文件的多个Sheet数据,则需将每个Sheet创建一个表格且作为表格的首个Sheet。

  • OSS:仅支持上传与当前DataWorks工作空间同地域的Bucket数据。

使用限制

  • 资源组限制:数据上传功能需指定调度资源组和数据集成资源组。

    说明
  • 表限制:仅支持将目标数据上传至自己名下的表(即您为表的Owner)。具体表现为以下场景:

    • 数据地图的表详情页显示您为该表的Table Owner。查看表详情,请参见查看表详情

    • 该表是您通过数据上传功能上传数据时新建的表。详情请参见上传数据至新建表

计费说明

数据上传会产生如下费用:

  • 数据传输费用。

  • 若涉及新建表,会收取计算和存储费用。

以上费用均由引擎侧收取,具体费用请参见相应引擎的计费文档MaxCompute计费Hologres计费E-MapReduce计费

前提条件

进入数据上传

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 单击左上角的image.png图标,选择全部产品 > 数据集成 > 上传与下载

  3. 上传与下载页面单击左侧导航栏的image.png图标,进入数据上传页面。

  4. 单击数据上传,根据界面指引上传目标数据。

上传目标数据

DataWorks支持将本地文件数据、数据分析的电子表格数据、对象存储OSS、HTTP文件数据上传至MaxCompute、EMR Hive、Hologres引擎,不同数据的上传配置存在差异,具体如下。

上传本地文件数据

  1. 选择待上传数据。

    1. 数据来源:选择本地文件

    2. 指定待上传数据:根据界面指引将本地文件拖拽至选择文件区域,并设置是否需要剔除脏数据。

      • 是:如遇脏数据,平台会自动忽略,继续上传数据。

      • 否:如遇脏数据,平台不会自动忽略,此次数据上传将被阻断。

    说明
    • 支持CSVXLSXLSXJSON格式,CSV文件最大支持上传的数据量为5GB,其他文件最大支持上传的数据量为100MB。

    • 默认上传文件的第一个Sheet。如需上传某个文件的多个Sheet数据,则需将每个Sheet创建一个表格且作为表格的首个Sheet。

    • 脏数据:例如,文件里某个单元格的数据为字符串类型,但映射到了目标表的INT类型字段,则该行数据会写入失败,该行数据为脏数据。具体的脏数据请以平台的实际判断逻辑为准。

  2. 配置存放待上传数据的目标表。

    您可选择将待上传数据存放至目标引擎数据源的已有表新建表image.png

    参数说明如下。

    参数

    描述

    目标引擎

    仅支持将数据上传至MaxCompute、EMR Hive、Hologres引擎。

    MaxCompute项目名称数据源

    存放待上传数据的项目或数据源,不同引擎需要配置的参数不同,具体参考实际界面。

    说明

    EMR Hive仅支持选择阿里云实例模式创建的数据源。

    区分生产项目(PROD)及开发项目(DEV):

    • 选择生产项目:目标表仅支持选择生产表。

    • 选择开发项目:目标表仅支持选择开发表。

    目标表(上传数据至已有表)

    • 选择目标表:存放待上传数据的表。支持通过关键字匹配搜索。

      说明

      仅支持将目标数据上传至自己名下的表(即您为表的Owner)。详情请参见使用限制

    • 上传方式:选择以哪种方式将待上传数据添加至目标表中。该参数需要与步骤3(配置的源文件与目标表的映射关系)配合使用。

      • 先清空表数据:先清空目标表数据,再全量将数据导入至目标表中相应的映射字段。

      • 追加:将待上传数据追加至目标表相应映射字段中。

    • 主键冲突策略:若上传数据导致目标表主键冲突,可采取如下处理策略。

      • 忽略:忽略上传的数据,目标表中的数据不会更新。

      • 更新(replace):上传的数据会全量覆盖目标表的旧数据,未配置列映射的字段强制写为NULL。

      • 更新(update):上传的数据覆盖目标表的旧数据,但仅覆盖配置有列映射的字段数据。

      说明

      仅Hologres引擎需要配置该参数。

    目标表(上传数据至新建表)

    • 表名:自定义表名称。

    • 表类型:根据需要选择非分区表分区表。若选择分区表,则需指定分区字段及其取值。

    • 生命周期:指定表的可用周期,过期后该表可能无法使用。更多表生命周期的介绍,详情请参见生命周期生命周期操作

    说明
    • EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理

    • MaxCompute引擎新建表过程,使用的是DataWorks数据源里面配置的MaxCompute账号信息,然后在MaxCompute对应项目中进行建表操作。

  3. 预览待上传数据并设置目标表字段。

    选择待上传数据及存放该数据的目标表后,您可预览数据详情,并配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。

    说明

    目前仅支持预览前20条数据。

    image.png参数说明如下。

    参数

    描述

    预览数据并设置目标表字段(上传数据至已有表)

    需配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。映射方式包括按列名映射按顺序映射。映射后您也可自定义目标表的字段名称。

    说明
    • 若待上传数据与目标表字段不存在映射关系,则该数据将会被置灰,且不会被上传。

    • 待上传数据与目标表字段不能存在重复映射关系。

    • 字段名称和字段类型不能为空,否则数据无法上传。

    预览数据并设置目标表字段(上传数据至新建表)

    可通过智能字段生成自动填充字段信息,也可手动修改字段信息。

    说明
    • 字段名称和字段类型不能为空,否则数据无法上传。

    • EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理

    文件编码

    若数据存在乱码,则可切换编码格式。支持选择UTF-8GB18030Big5

    忽略首行

    是否将文件数据的首行(通常为列名称)上传至目标表中。

    • 勾选:文件首行不上传至目标表中。

    • 不勾选:文件首行将上传至目标表中。

  4. 单击数据上传,开始上传数据。

上传数据分析电子表格数据

  1. 选择待上传数据。

    1. 数据来源:选择电子表格

    2. 指定待上传数据:选择已创建的电子表格,并设置是否需要剔除脏数据。

      • 是:如遇脏数据,平台会自动忽略,继续上传数据。

      • 否:如遇脏数据,平台不会自动忽略,此次数据上传将被阻断。

    说明
    • 创建电子表格并导入数据,详情请参见创建并管理电子表格导入数据至电子表格

    • 脏数据:例如,文件里某个单元格的数据为字符串类型,但映射到了目标表的INT类型字段,则该行数据会写入失败,该行数据为脏数据。具体的脏数据请以平台的实际判断逻辑为准。

  2. 配置存放待上传数据的目标表。

    您可选择将待上传数据存放至目标引擎数据源的已有表新建表image.png

    参数说明如下。

    参数

    描述

    目标引擎

    仅支持将数据上传至MaxCompute、EMR Hive、Hologres引擎。

    MaxCompute项目名称数据源

    存放待上传数据的项目或数据源,不同引擎需要配置的参数不同,具体参考实际界面。

    说明

    EMR Hive仅支持选择阿里云实例模式创建的数据源。

    区分生产项目(PROD)及开发项目(DEV):

    • 选择生产项目:目标表仅支持选择生产表。

    • 选择开发项目:目标表仅支持选择开发表。

    目标表(上传数据至已有表)

    • 选择目标表:存放待上传数据的表。支持通过关键字匹配搜索。

      说明

      仅支持将目标数据上传至自己名下的表(即您为表的Owner)。详情请参见使用限制

    • 上传方式:选择以哪种方式将待上传数据添加至目标表中。该参数需要与步骤3(配置的源文件与目标表的映射关系)配合使用。

      • 先清空表数据:先清空目标表数据,再全量将数据导入至目标表中相应的映射字段。

      • 追加:将待上传数据追加至目标表相应映射字段中。

    • 主键冲突策略:若上传数据导致目标表主键冲突,可采取如下处理策略。

      • 忽略:忽略上传的数据,目标表中的数据不会更新。

      • 更新(replace):上传的数据会全量覆盖目标表的旧数据,未配置列映射的字段强制写为NULL。

      • 更新(update):上传的数据覆盖目标表的旧数据,但仅覆盖配置有列映射的字段数据。

      说明

      仅Hologres引擎需要配置该参数。

    目标表(上传数据至新建表)

    • 表名:自定义表名称。

    • 表类型:根据需要选择非分区表分区表。若选择分区表,则需指定分区字段及其取值。

    • 生命周期:指定表的可用周期,过期后该表可能无法使用。更多表生命周期的介绍,详情请参见生命周期生命周期操作

    说明
    • EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理

    • MaxCompute引擎新建表过程,使用的是DataWorks数据源里面配置的MaxCompute账号信息,然后在MaxCompute对应项目中进行建表操作。

  3. 预览待上传数据并设置目标表字段。

    选择待上传数据及存放该数据的目标表后,您可预览数据详情,并配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。

    说明

    目前仅支持预览前20条数据。

    image.png参数说明如下。

    参数

    描述

    预览数据并设置目标表字段(上传数据至已有表)

    需配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。映射方式包括按列名映射按顺序映射。映射后您也可自定义目标表的字段名称。

    说明
    • 若待上传数据与目标表字段不存在映射关系,则该数据将会被置灰,且不会被上传。

    • 待上传数据与目标表字段不能存在重复映射关系。

    • 字段名称和字段类型不能为空,否则数据无法上传。

    预览数据并设置目标表字段(上传数据至新建表)

    可通过智能字段生成自动填充字段信息,也可手动修改字段信息。

    说明
    • 字段名称和字段类型不能为空,否则数据无法上传。

    • EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理

    文件编码

    若数据存在乱码,则可切换编码格式。支持选择UTF-8GB18030Big5

    忽略首行

    是否将文件数据的首行(通常为列名称)上传至目标表中。

    • 勾选:文件首行不上传至目标表中。

    • 不勾选:文件首行将上传至目标表中。

  4. 单击数据上传,根据界面指引上传目标数据。

上传对象存储OSS数据

  1. 选择待上传数据。

    1. 数据来源:选择阿里云对象存储OSS

    2. 指定待上传数据:选择已创建的Bucket文件,并设置是否需要剔除脏数据。

      • 是:如遇脏数据,平台会自动忽略,继续上传数据。

      • 否:如遇脏数据,平台不会自动忽略,此次数据上传将被阻断。

    说明
    • 仅支持上传与当前DataWorks工作空间同地域的Bucket数据。创建Bucket,详情请参见创建存储空间

    • 脏数据:例如,文件里某个单元格的数据为字符串类型,但映射到了目标表的INT类型字段,则该行数据会写入失败,该行数据为脏数据。具体的脏数据请以平台的实际判断逻辑为准。

  2. 配置存放待上传数据的目标表。

    您可选择将待上传数据存放至目标引擎数据源的已有表新建表image.png

    参数说明如下。

    参数

    描述

    目标引擎

    仅支持将数据上传至MaxCompute、EMR Hive、Hologres引擎。

    MaxCompute项目名称数据源

    存放待上传数据的项目或数据源,不同引擎需要配置的参数不同,具体参考实际界面。

    说明

    EMR Hive仅支持选择阿里云实例模式创建的数据源。

    区分生产项目(PROD)及开发项目(DEV):

    • 选择生产项目:目标表仅支持选择生产表。

    • 选择开发项目:目标表仅支持选择开发表。

    目标表(上传数据至已有表)

    • 选择目标表:存放待上传数据的表。支持通过关键字匹配搜索。

      说明

      仅支持将目标数据上传至自己名下的表(即您为表的Owner)。详情请参见使用限制

    • 上传方式:选择以哪种方式将待上传数据添加至目标表中。该参数需要与步骤3(配置的源文件与目标表的映射关系)配合使用。

      • 先清空表数据:先清空目标表数据,再全量将数据导入至目标表中相应的映射字段。

      • 追加:将待上传数据追加至目标表相应映射字段中。

    • 主键冲突策略:若上传数据导致目标表主键冲突,可采取如下处理策略。

      • 忽略:忽略上传的数据,目标表中的数据不会更新。

      • 更新(replace):上传的数据会全量覆盖目标表的旧数据,未配置列映射的字段强制写为NULL。

      • 更新(update):上传的数据覆盖目标表的旧数据,但仅覆盖配置有列映射的字段数据。

      说明

      仅Hologres引擎需要配置该参数。

    目标表(上传数据至新建表)

    • 表名:自定义表名称。

    • 表类型:根据需要选择非分区表分区表。若选择分区表,则需指定分区字段及其取值。

    • 生命周期:指定表的可用周期,过期后该表可能无法使用。更多表生命周期的介绍,详情请参见生命周期生命周期操作

    说明
    • EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理

    • MaxCompute引擎新建表过程,使用的是DataWorks数据源里面配置的MaxCompute账号信息,然后在MaxCompute对应项目中进行建表操作。

  3. 预览待上传数据并设置目标表字段。

    选择待上传数据及存放该数据的目标表后,您可预览数据详情,并配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。

    说明

    目前仅支持预览前20条数据。

    image.png参数说明如下。

    参数

    描述

    预览数据并设置目标表字段(上传数据至已有表)

    需配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。映射方式包括按列名映射按顺序映射。映射后您也可自定义目标表的字段名称。

    说明
    • 若待上传数据与目标表字段不存在映射关系,则该数据将会被置灰,且不会被上传。

    • 待上传数据与目标表字段不能存在重复映射关系。

    • 字段名称和字段类型不能为空,否则数据无法上传。

    预览数据并设置目标表字段(上传数据至新建表)

    可通过智能字段生成自动填充字段信息,也可手动修改字段信息。

    说明
    • 字段名称和字段类型不能为空,否则数据无法上传。

    • EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理

    文件编码

    若数据存在乱码,则可切换编码格式。支持选择UTF-8GB18030Big5

    忽略首行

    是否将文件数据的首行(通常为列名称)上传至目标表中。

    • 勾选:文件首行不上传至目标表中。

    • 不勾选:文件首行将上传至目标表中。

  4. 单击数据上传,开始上传数据。

上传HTTP文件数据

  1. 选择待上传数据。

    1. 数据来源:选择HTTP文件

    2. 指定待上传数据文件地址选择已创建的HTTP文件,文件类型会根据您所上传的文件类型进行自动识别,您可在此选择请求MethodGETPOSTPUT,并设置是否需要剔除脏数据。

      • 是:如遇脏数据,平台会自动忽略,继续上传数据。

      • 否:如遇脏数据,平台不会自动忽略,此次数据上传将被阻断。

      说明

      您也可根据业务情况,在高级参数里面设置请求Header请求Body信息。

  2. 配置存放待上传数据的目标表。

    您可选择将待上传数据存放至目标引擎数据源的已有表新建表image.png

    参数说明如下。

    参数

    描述

    目标引擎

    仅支持将数据上传至MaxCompute、EMR Hive、Hologres引擎。

    MaxCompute项目名称数据源

    存放待上传数据的项目或数据源,不同引擎需要配置的参数不同,具体参考实际界面。

    说明

    EMR Hive仅支持选择阿里云实例模式创建的数据源。

    区分生产项目(PROD)及开发项目(DEV):

    • 选择生产项目:目标表仅支持选择生产表。

    • 选择开发项目:目标表仅支持选择开发表。

    目标表(上传数据至已有表)

    • 选择目标表:存放待上传数据的表。支持通过关键字匹配搜索。

      说明

      仅支持将目标数据上传至自己名下的表(即您为表的Owner)。详情请参见使用限制

    • 上传方式:选择以哪种方式将待上传数据添加至目标表中。该参数需要与步骤3(配置的源文件与目标表的映射关系)配合使用。

      • 先清空表数据:先清空目标表数据,再全量将数据导入至目标表中相应的映射字段。

      • 追加:将待上传数据追加至目标表相应映射字段中。

    • 主键冲突策略:若上传数据导致目标表主键冲突,可采取如下处理策略。

      • 忽略:忽略上传的数据,目标表中的数据不会更新。

      • 更新(replace):上传的数据会全量覆盖目标表的旧数据,未配置列映射的字段强制写为NULL。

      • 更新(update):上传的数据覆盖目标表的旧数据,但仅覆盖配置有列映射的字段数据。

      说明

      仅Hologres引擎需要配置该参数。

    目标表(上传数据至新建表)

    • 表名:自定义表名称。

    • 表类型:根据需要选择非分区表分区表。若选择分区表,则需指定分区字段及其取值。

    • 生命周期:指定表的可用周期,过期后该表可能无法使用。更多表生命周期的介绍,详情请参见生命周期生命周期操作

    说明
    • EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理

    • MaxCompute引擎新建表过程,使用的是DataWorks数据源里面配置的MaxCompute账号信息,然后在MaxCompute对应项目中进行建表操作。

  3. 预览待上传数据并设置目标表字段。

    选择待上传数据及存放该数据的目标表后,您可预览数据详情,并配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。

    说明

    目前仅支持预览前20条数据。

    image.png参数说明如下。

    参数

    描述

    预览数据并设置目标表字段(上传数据至已有表)

    需配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。映射方式包括按列名映射按顺序映射。映射后您也可自定义目标表的字段名称。

    说明
    • 若待上传数据与目标表字段不存在映射关系,则该数据将会被置灰,且不会被上传。

    • 待上传数据与目标表字段不能存在重复映射关系。

    • 字段名称和字段类型不能为空,否则数据无法上传。

    预览数据并设置目标表字段(上传数据至新建表)

    可通过智能字段生成自动填充字段信息,也可手动修改字段信息。

    说明
    • 字段名称和字段类型不能为空,否则数据无法上传。

    • EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理

    文件编码

    若数据存在乱码,则可切换编码格式。支持选择UTF-8GB18030Big5

    忽略首行

    是否将文件数据的首行(通常为列名称)上传至目标表中。

    • 勾选:文件首行不上传至目标表中。

    • 不勾选:文件首行将上传至目标表中。

  4. 单击数据上传,开始上传数据。

后续操作

数据上传成功后,您可根据需要执行如下操作:

  • 数据查询:使用数据分析功能查询与分析数据,详情请参见SQL查询

  • 查看上传数据详情:在数据上传页面,单击目标表名称,即可进入数据地图查看目标表详细信息。详情请参见通用数据查询与管理

附录:跨境操作数据上传的合规声明

重要

如您涉及跨境操作数据上传(例如,数据从中国境内传输至中国境外、数据在不同国家/地区间传输等),请提前了解相关合规声明,否则可能导致数据上传失败并将承担相应法律责任。

数据跨境操作将导致您的云上业务数据传输至您所选择的区域或产品部署区域,您应确保相关操作遵循如下要求:

  • 拥有相关云上业务数据的处理权限。

  • 采取充分的数据安全保护技术及策略。

  • 数据传输行为符合相关法律法规的要求。例如,传输的数据不含任何所适用法律限制、禁止传输或披露的内容。

阿里云特别提示您,若您的数据上传操作可能导致数据跨境传输,请在开展相关操作前咨询专业的法律或合规人员,确保数据跨境传输行为符合所适用的法律法规及监管政策的要求(例如,获得个人信息主体的有效授权、完成相关合同条款的签署及备案、完成相关安全评估等法定义务)。

若未遵守该合规声明便开展数据跨境操作,您将承担对应的法律后果。同时,导致阿里云及其关联公司遭受的任何损失,您应承担赔偿责任。

相关文档