创建OSS-HDFS投递任务

OSS-HDFS服务(JindoFS服务)是一个云原生数据湖存储功能。基于统一的元数据管理能力,完全兼容HDFS文件系统接口,满足大数据和AI等领域的数据湖计算场景。日志服务支持将数据投递到OSS-HDFS。本文介绍创建OSS-HDFS投递任务的操作步骤。

前提条件

支持的地域说明

  • 日志服务投递数据到OSS-HDFS为同地域投递,即日志服务Project所在的地域和OSS Bucket所在地域相同。

  • 目前仅德国(法兰克福)地域支持创建OSS-HDFS投递任务。

创建投递任务

  1. 登录日志服务控制台

  2. 在Project列表区域,单击目标Project。

    image

  3. 日志存储 > 日志库页签中,单击目标Logstore左侧的>,选择数据处理 > 导出 > OSS(对象存储)

  4. 将鼠标悬浮OSS(对象存储)上,单击+

  5. 创建投递任务对话框中,选中OSS-HDFS导出,然后单击确认

  6. OSS-HDFS投递功能面板,配置如下参数,然后单击确定

    重要参数配置说明如下所示。

    重要
    • 创建OSS-HDFS投递任务后,每个Shard都会根据投递大小、投递时间决定投递的频率。当任一条件满足时,即会执行一次投递。

    • 创建OSS-HDFS投递任务后,您可以通过投递任务的状态和投递到OSS-HDFS的数据确认该投递任务是否符合预期结果。

    参数

    说明

    任务名称

    投递任务的唯一名称。

    显示名称

    投递任务的显示名称。

    任务描述

    OSS-HDFS的任务描述。

    OSS-HDFS Bucket

    OSS Bucket名称。

    重要
    • 必须是已存在的Bucket,且该Bucket与日志服务Project位于相同地域。

    • 该Bucket已开启OSS-HDFS服务。

    • 支持投递到标准、低频访问存储类型的Bucket中。投递后,生成的OSS Object的存储类型默认与Bucket一致。更多信息,请参见存储类型概述

    • 低频访问存储类型的Bucket存在最低存储时间和最小计量单位限制。更多信息,请参见存储类型对比

    • 归档、冷归档以及深度冷归档存储类型的Bucket不支持开启HDFS服务。

    文件投递目录

    OSS Bucket中的目录。目录名不能以正斜线(/)或者反斜线(\)开头。

    创建OSS-HDFS投递任务后,Logstore中的数据将投递到目标OSS Bucket的此目录中。

    文件后缀

    如果您未设置文件后缀,则日志服务会根据存储格式和压缩类型自动生成后缀。例如.suffix

    分区格式

    按照投递时间动态生成OSS Bucket的目录,不能以正斜线(/)开头,默认值为%Y/%m/%d/%H/%M,相关示例请参见分区格式,参数详情请参见strptime API

    写OSS-HDFS RAM角色

    授予OSS-HDFS投递任务将数据写入到OSS Bucket的权限。

    • 默认角色:授权OSS-HDFS投递任务扮演阿里云系统角色AliyunLogDefaultRole将数据写入到OSS Bucket中。更多信息,请参见通过默认角色访问数据

    • 自定义角色:授权OSS-HDFS投递任务扮演自定义RAM角色将数据写入到OSS Bucket中。

      您需先授予自定义RAM角色将数据写入到OSS Bucket的权限,然后在写OSS-HDFS RAM角色中输入您自定义RAM角色的ARN。如何获取ARN,请参见如下说明:

    读Logstore RAM角色

    授予OSS-HDFS投递任务读取Logstore数据的权限。

    存储格式

    数据被投递到OSS-HDFS后,支持存储为不同的文件格式。更多信息,请参见JSON格式CSV格式Parquet格式ORC格式

    是否压缩

    OSS数据存储的压缩方式。

    • 不压缩(none):不压缩数据。

    • 压缩(snappy):使用snappy算法压缩数据,减少OSS Bucket的空间。更多信息,请参见snappy

    • 压缩(zstd):使用zstd算法压缩数据,减少OSS Bucket的空间。

    • 压缩(gzip):使用gzip算法压缩数据,减少OSS Bucket的空间。

    是否投递tag

    tag字段为日志服务的保留字段,更多信息,请参见保留字段

    攒批大小

    每个Shard积攒日志量达到该值指定的大小开始投递。通过该值控制OSS-HDFS Object大小(以未压缩计算),取值范围为5~256,单位为MB。说明:攒批大小和攒批时间二者满足其一开始投递。

    攒批时间

    每个Shard从取到第一日志时间到第n条日志时间差值大于等于该值时开始投递。取值范围为300~900,默认值为300,单位为秒。说明:攒批大小和攒批时间二者满足其一开始投递。

    延迟投递

    投递数据的延迟时间。例如设置为3600,则表示数据被延迟1小时投递,即2023/06/05 10:00:00的数据不会早于2023/06/05 11:00:00写入到指定的OSS Bucket中。相关的限制说明,请参见配置项限制

    开始时间范围

    投递任务从该时间开始拉取Logstore中的数据。

    时区选择

    该时区用于格式化时间。

    如果您设置了时区选择分区格式,系统将根据您的设置生成OSS Bucket的目录。

查看数据

将数据投递到OSS-HDFS成功后,您可以在OSS-HDFS中查看数据。更多信息,请参见通过OSS控制台访问