OSS文件类型转换(向导模式)
更新时间:
DLA支持通过向导和SQL两种模式实现OSS文件类型转换,本文主要介绍向导模式。
背景信息
对象存储服务OSS(Object Storage Service)是一种海量、安全、低成本、高可靠的云存储服务,可存放任意类型的文件。当文件数量越来越多时,其结果将导致数据格式差异也越大,不利于格式的统一管理和后续数据分析利用。
DLA文件类型转换可以自动识别OSS目录中的文件类型以及字段信息,将文件转换成指定类型。例如可以将文件类型转换为压缩率更高的列存储Parquet类型,节省存储空间;或者将文件类型转换为更便于操作的JSON数据类型。
功能限制
通过向导模式实现文件类型转换时,有以下功能限制:
- 支持将ORC类型的文件转换为Parquet、JSON、CSV或者Avro类型。
- 支持将Parquet类型的文件转换为ORC、JSON、CSV或者Avro类型。
- 要求所选择的OSS目录中文件的数据类型完全一致,DLA只选取其中一个文件进行格式探测,如果文件格式不一致,系统将报错。
操作步骤
登录DLA控制台。
在页面左上角,选择集群所在地域。
单击左侧导航栏的数据湖构建 > 数据入湖,在数据入湖页面单击文件转换中的进入向导。
在文件转换页面,按照页面提示进行参数设置。
参数 说明 源文件位置 OSS中待转换类型的源文件。 结果文件位置 设置结果文件的存储位置。 数据格式 设置结果文件的存储格式。 字段信息 选择源文件存储路径后,DLA自动解析文件中的数据格式。 完成上述参数配置后,单击开始转换,系统提示您创建文件转换任务成功。
相关操作
通过SQL模式实现OSS文件类型转换请参见文件类型转换(SQL模式)。
反馈
- 本页导读 (1)
文档反馈