全部产品

OSS文件类型转换(向导模式)

更新时间:2020-07-16 21:32:03

DLA支持通过向导和SQL两种模式实现OSS文件类型转换,本文主要介绍向导模式。

背景信息

对象存储服务OSS(Object Storage Service)是一种海量、安全、低成本、高可靠的云存储服务,可存放任意类型的文件。当文件数量越来越多时,其结果将导致数据格式差异也越大,不利于格式的统一管理和后续数据分析利用。

DLA文件类型转换可以自动识别OSS目录中的文件类型以及字段信息,将文件转换成指定类型。例如可以将文件类型转换为压缩率更高的列存储Parquet类型,节省存储空间;或者将文件类型转换为更便于操作的JSON数据类型。

功能限制

通过向导模式实现文件类型转换时,有以下功能限制:

  • 支持将ORC类型的文件转换为Parquet、JSON、CSV或者Avro类型。
  • 支持将Parquet类型的文件转换为ORC、JSON、CSV或者Avro类型。
  • 要求所选择的OSS目录中文件的数据类型完全一致,DLA只选取其中一个文件进行格式探测,如果文件格式不一致,系统将报错。

操作步骤

  1. 登录DLA控制台

  2. 在页面左上角,选择集群所在地域。

  3. 单击左侧导航栏的数据湖构建 > 数据入湖,在数据入湖页面单击文件转换中的进入向导

  4. 文件转换页面,按照页面提示进行参数设置。

    参数 说明
    源文件位置 OSS中待转换类型的源文件。

    注意:要求所选择目录中文件的数据类型完全一致,DLA只选取其中一个文件进行格式探测,如果文件格式不一致,系统将报错。
    结果文件位置 设置结果文件的存储位置。
    数据格式 设置结果文件的存储格式。
    字段信息 选择源文件存储路径后,DLA自动解析文件中的数据格式。
  5. 完成上述参数配置后,单击开始转换,系统提示您创建文件转换任务成功

相关操作

通过SQL模式实现OSS文件类型转换请参见文件类型转换(SQL模式)