什么是OSS-HDFS服务-对象存储(OSS)-阿里云帮助中心

OSS-HDFS服务（JindoFS服务）是一个云原生数据湖存储功能。基于统一的元数据管理能力，完全兼容HDFS文件系统接口，满足大数据和AI等领域的数据湖计算场景。

注意事项

警告

当您为某个Bucket开通OSS-HDFS服务后，OSS-HDFS服务数据将保留在Bucket的.dlsdata/目录下。禁止以非OSS-HDFS提供的方式对该目录及其下的Object执行写入操作，如重命名、删除等，以避免影响服务或数据丢失。
若发生账户欠费、删除服务依赖的RAM角色AliyunOSSDlsDefaultRole等影响HDFS运行的情况，HDFS后台服务可能会进入安全模式。该模式下，后台服务将全部暂停（如审计日志、异步删除、冷热分层等）。当影响消失时，后台服务会在一段时间内自动恢复。

开通OSS-HDFS服务后，您在使用涉及.dlsdata/目录写入操作的OSS其他功能时，可能存在数据丢失、数据污染、数据无法正常访问等风险。更多信息，请参见使用前须知。

费用说明

元数据管理费用
暂不计费。
数据使用费用
使用OSS-HDFS服务时，数据块采用了OSS的存储方式。因此，OSS的计量计费方式适用于OSS-HDFS服务中的数据块。更多信息，请参见计费概述。

功能优势

通过OSS-HDFS服务，无需对现有的Hadoop、Spark大数据分析应用做任何修改。通过简单的配置即可像在原生HDFS中那样管理和访问数据，同时获得OSS无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。

作为云原生数据湖基础，OSS-HDFS在满足EB 、亿级文件管理服务、TB级吞吐量的同时，全面融合大数据存储生态，除提供对象存储扁平命名空间之外，还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理，并能通过统一元数据管理能力进行内部自动转换。同时相较于传统HDFS的元数据管理节点NameNode的主备冗余方式，OSS-HDFS的元数据管理采用多节点多活冗余机制，具备更好的数据冗余能力。对Hadoop用户而言，无需做数据复制或转换就可以实现像访问本地HDFS一样高效的数据访问，极大提升整体作业性能，降低了维护成本。

功能特性

功能特性	说明	参考文档
回收站	当您从OSS-HDFS服务误删除文件时，文件不会立即被彻底删除，而是转至回收站。回收站中的数据保存时间默认是3天，支持自定义数据保存时间为1~14天。在回收站数据保存时间到期前，您可以从回收站恢复已删除的文件。	使用回收站
导出清单	使用清单导出功能，您可以将某个Bucket下的OSS-HDFS服务的文件清单导出到某个特定路径，格式为JSON文件，方便您对元数据进行统计分析。	导出元数据清单
导出审计日志	OSS-HDFS服务端记录了客户端请求的查询、修改、删除文件元数据的操作审计日志。您可以通过审计日志，了解OSS-HDFS服务操作审计、访问统计以及异常请求等情况。	导出审计日志
冷热分层存储	并不是所有OSS-HDFS中存储的数据都需要频繁访问，但基于数据合规或者存档等原因，部分数据仍然需要继续保存。针对以上问题，OSS-HDFS服务支持数据的冷热分层存储，对于经常需要访问的数据以标准类型进行存储，对于较少访问的数据以低频、归档以及冷归档类型进行存储，从而降低总存储成本。	使用冷热分层存储
元数据转换	OSS-HDFS服务支持在未部署任何导入和导出工具的情况下，直接将OSS元数据转换为OSS-HDFS元数据。	转换元数据
RootPolicy	您可以通过RootPolicy为OSS-HDFS服务设置自定义前缀，在无需修改原有访问`hdfs://`前缀作业的基础上，将作业直接运行在OSS-HDFS服务上。	通过RootPolicy访问
ProxyUser	ProxyUser命令用于授权一个用户代表其他用户进行文件系统操作。例如，某些敏感数据只允许授权的特定用户代表其他用户进行访问和操作。	ProxyUser（配置代理用户）
UserGroupsMapping	UserGroupsMapping用于配置用户和用户组之间的映射关系。	UserGroupsMapping（管理用户和用户组映射）

应用场景

OSS-HDFS服务提供全面的大数据和AI生态支持，其主要应用场景如下：

Hive、Spark离线数仓

OSS-HDFS服务原生支持文件、目录语义和操作，添加文件和目录权限，支持目录原子性、毫秒级rename操作，支持通过setTimes设置时间，扩展属性（XAttrs）、ACL以及本地读缓存加速等特性。适用于开源Hive、Spark离线数仓。在ETL场景下相较于OSS标准存储类型Bucket，OSS-HDFS服务具有更大的性能优势。更多信息，请参见在EMR Hive或Spark中访问OSS-HDFS。

OLAP

OSS-HDFS服务提供append、truncate、flush、sync、pwrite等基础文件操作。通过JindoFuse充分支持POSIX，可以在ClickHouse这类OLAP场景中替换本地磁盘来实现存储与计算分离方案。同时，得益于缓存系统进行加速，达到较优性价比。

HBase存储与计算分离

OSS-HDFS服务原生支持文件、目录语义和操作，并支持flush操作，可用于替代HDFS用做HBase存储与计算分离方案。相比HBase结合OSS标准存储类型Bucket的方案，HBase结合OSS-HDFS服务依赖HDFS来存放WAL日志，大幅简化整体方案架构。更多信息，请参见使用OSS-HDFS作为HBase的底层存储。

实时计算

OSS-HDFS服务高效支持flush和truncate操作，可无缝替代HDFS在Flink实时计算应用场景下用做Sink、Checkpoint存储方案。

数据迁移

OSS-HDFS服务作为新一代云原生数据湖存储，支持IDC HDFS平迁上云，优化HDFS使用体验，同时享受弹性伸缩、按需付费的成本效益，大幅优化存储成本。JindoDistCp工具支持将HDFS文件数据（包括文件属性等元数据）无缝迁入OSS-HDFS 服务，并基于HDFS Checksum提供快速比对。

引擎支持列表

生态类型	引擎/平台	参考文档
开源生态	Flink	开源Flink使用JindoSDK处理OSS-HDFS服务的数据
	Flume	Flume使用JindoSDK写入OSS-HDFS服务
	Hadoop	Hadoop使用JindoSDK访问OSS-HDFS服务
	HBase	HBase使用OSS-HDFS服务作为底层存储
	Hive	Hive使用JindoSDK处理OSS-HDFS服务中的数据
	Impala	Impala使用JindoSDK查询OSS-HDFS服务中的数据
	Presto	Trino使用JindoSDK查询OSS-HDFS服务中的数据
	Spark	Spark使用JindoSDK查询OSS-HDFS服务中的数据
阿里云生态	EMR	在EMR Hive或Spark中访问OSS-HDFS
	Flink	EMR Flink可恢复性写入OSS-HDFS服务实时计算Flink读写OSS或者OSS-HDFS
	Flume	使用Flume同步EMR Kafka集群的数据至OSS-HDFS服务
	HBase	HBase以EMR集群的方式使用OSS-HDFS服务作为底层存储
	Hive	Hive以EMR集群的方式处理OSS-HDFS服务中的数据
	Impala	Impala以EMR集群的方式查询OSS-HDFS服务中的数据
	Presto	Trino以EMR集群的方式查询OSS-HDFS服务中的数据
	Spark	Spark以EMR集群的方式处理OSS-HDFS服务中的数据
	Sqoop	Sqoop以EMR集群的方式读写OSS-HDFS服务的数据
第三方生态	SeaTunnel	通过SeaTunnel集成平台将数据写入OSS-HDFS服务