OSS-HDFS服务(JindoFS服务)是一个云原生数据湖存储功能。基于统一的元数据管理能力,完全兼容HDFS文件系统接口,满足大数据和AI等领域的数据湖计算场景。日志服务支持将数据投递到OSS-HDFS。本文介绍创建OSS-HDFS投递任务的操作步骤。
前提条件
已创建Project和Logstore。具体操作,请参见创建Project和Logstore。
已采集到数据。具体操作,请参见数据采集。
已在日志服务Project所在的地域创建Bucket,并为该Bucket开通OSS-HDFS服务。具体操作,请参见控制台创建存储空间、开通并授权访问OSS-HDFS服务。
支持的地域说明
日志服务投递数据到OSS-HDFS为同地域投递,即日志服务Project所在的地域和OSS Bucket所在地域相同。
目前仅德国(法兰克福)地域支持创建OSS-HDFS投递任务。
创建投递任务
登录日志服务控制台。
在Project列表区域,单击目标Project。
在
页签中,单击目标Logstore左侧的>,选择 。将鼠标悬浮OSS(对象存储)上,单击+。
在创建投递任务对话框中,选中OSS-HDFS导出,然后单击确认。
在OSS-HDFS投递功能面板,配置如下参数,然后单击确定。
重要参数配置说明如下所示。
重要创建OSS-HDFS投递任务后,每个Shard都会根据投递大小、投递时间决定投递的频率。当任一条件满足时,即会执行一次投递。
创建OSS-HDFS投递任务后,您可以通过投递任务的状态和投递到OSS-HDFS的数据确认该投递任务是否符合预期结果。
参数
说明
任务名称
投递任务的唯一名称。
显示名称
投递任务的显示名称。
任务描述
OSS-HDFS的任务描述。
OSS-HDFS Bucket
OSS Bucket名称。
文件投递目录
OSS Bucket中的目录。目录名不能以正斜线(/)或者反斜线(\)开头。
创建OSS-HDFS投递任务后,Logstore中的数据将投递到目标OSS Bucket的此目录中。
文件后缀
如果您未设置文件后缀,则日志服务会根据存储格式和压缩类型自动生成后缀。例如
.suffix
。分区格式
按照投递时间动态生成OSS Bucket的目录,不能以正斜线(/)开头,默认值为%Y/%m/%d/%H/%M,相关示例请参见分区格式,参数详情请参见strptime API。
写OSS-HDFS RAM角色
授予OSS-HDFS投递任务将数据写入到OSS Bucket的权限。
默认角色:授权OSS-HDFS投递任务扮演阿里云系统角色AliyunLogDefaultRole将数据写入到OSS Bucket中。更多信息,请参见通过默认角色访问数据。
自定义角色:授权OSS-HDFS投递任务扮演自定义RAM角色将数据写入到OSS Bucket中。
您需先授予自定义RAM角色将数据写入到OSS Bucket的权限,然后在写OSS-HDFS RAM角色中输入您自定义RAM角色的ARN。如何获取ARN,请参见如下说明:
如果Logstore和OSS Bucket属于同一阿里云账号,请参见步骤二:授予RAM角色写OSS Bucket的权限。
如果Logstore和OSS Bucket属于不同的阿里云账号,请参见步骤二:授予账号B下的RAM角色b写OSS Bucket的权限。
读Logstore RAM角色
授予OSS-HDFS投递任务读取Logstore数据的权限。
默认角色:授权OSS-HDFS投递任务扮演阿里云系统角色AliyunLogDefaultRole来读取Logstore中的数据。更多信息,请参见通过默认角色访问数据。
自定义角色:授权OSS-HDFS投递任务扮演自定义RAM角色来读取Logstore中的数据。
您需先授予自定义角色读取Logstore数据的权限,然后在读Logstore RAM角色中输入您自定义角色的ARN。如何获取ARN,请参见如下说明:
如果Logstore和OSS Bucket属于同一阿里云账号,请参见步骤一:授予RAM角色读取Logstore数据的权限。
如果Logstore和OSS Bucket属于不同的阿里云账号,请参见步骤一:授予账号A下的RAM角色a读取Logstore数据的权限。
存储格式
数据被投递到OSS-HDFS后,支持存储为不同的文件格式。更多信息,请参见JSON格式、CSV格式、Parquet格式和ORC格式。
是否压缩
OSS数据存储的压缩方式。
不压缩(none):不压缩数据。
压缩(snappy):使用snappy算法压缩数据,减少OSS Bucket的空间。更多信息,请参见snappy。
压缩(zstd):使用zstd算法压缩数据,减少OSS Bucket的空间。
压缩(gzip):使用gzip算法压缩数据,减少OSS Bucket的空间。
是否投递tag
tag字段为日志服务的保留字段,更多信息,请参见保留字段。
攒批大小
每个Shard积攒日志量达到该值指定的大小开始投递。通过该值控制OSS-HDFS Object大小(以未压缩计算),取值范围为5~256,单位为MB。说明:攒批大小和攒批时间二者满足其一开始投递。
攒批时间
每个Shard从取到第一日志时间到第n条日志时间差值大于等于该值时开始投递。取值范围为300~900,默认值为300,单位为秒。说明:攒批大小和攒批时间二者满足其一开始投递。
延迟投递
投递数据的延迟时间。例如设置为3600,则表示数据被延迟1小时投递,即2023/06/05 10:00:00的数据不会早于2023/06/05 11:00:00写入到指定的OSS Bucket中。相关的限制说明,请参见配置项限制。
开始时间范围
投递任务从该时间开始拉取Logstore中的数据。
时区选择
该时区用于格式化时间。
如果您设置了时区选择和分区格式,系统将根据您的设置生成OSS Bucket的目录。
查看数据
将数据投递到OSS-HDFS成功后,您可以在OSS-HDFS中查看数据。更多信息,请参见通过OSS控制台访问。