Flink通过EMR可恢复性写入数据至OSS-HDFS-对象存储-阿里云

可恢复性写入功能支持将数据以EXACTLY_ONCE语义写入存储介质。本文介绍Flink如何通过EMR集群的方式可恢复性写入OSS-HDFS服务。

前提条件

已为Bucket开通并授权访问OSS-HDFS服务。具体操作，请参见开通OSS-HDFS服务。
阿里云账号默认拥有通过EMR集群的方式接入OSS-HDFS服务并执行常见操作的权限。如果您希望通过RAM用户接入OSS-HDFS服务，RAM用户需要具备对应的权限要求，详情请参见授权RAM用户通过EMR集群接入OSS-HDFS服务。

您在提交Flink作业时，可以自定义参数，以开启或控制特定功能。

例如，通过-yD配置以yarn-cluster模式提交Flink作业时，示例如下：

<flink_home>/bin/flink run -m yarn-cluster -yD key1=value1 -yD key2=value2 ...

您可以开启熵注入（Entropy Injection）功能。熵注入可以匹配写入路径的一段特定字符串，用一段随机的字符串进行替换，以削弱所谓片区效应，提高写入效率。

当写入场景为OSS-HDFS时，需要完成下列配置。

oss.entropy.key=<user-defined-key>
oss.entropy.length=<user-defined-length>

写入新文件时，路径中与<user-defined-key>相同的字符串会被替换为一个随机字符串，随机串的长度为<user-defined-length>，且<user-defined-length>必须大于零。