面向大数据分析的Hadoop兼容文件存储-文件存储HDFS版-对象存储-阿里云

文件存储HDFS版（Apsara File Storage for HDFS）是面向阿里云ECS实例及容器服务等计算资源的文件存储服务。您可以像在Hadoop分布式文件系统（Hadoop Distributed File System）中管理和访问数据那样使用文件存储HDFS版。您无需对现有大数据分析应用做任何修改，即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。

适用场景

文件存储HDFS版适用于对吞吐要求较高的大数据分析与机器学习业务场景。文件存储HDFS版能够提供高吞吐量和低延迟的访问能力，无需将数据迁移到计算资源本地。

您将数据存入文件存储HDFS版后，ECS实例或其他计算资源即可直接访问这些数据。将Hadoop或其他机器学习应用部署在多个计算资源上，应用可以直接通过Hadoopfs接口访问数据进行离线或在线计算，也可以直接将计算结果输出到文件存储HDFS版做永久保存。

性能

衡量文件存储HDFS版的性能指标主要是吞吐能力。吞吐最大不会超过ECS带宽。如果您的ECS带宽只有1.5 Gbps，则吞吐最高可达到187.5 MB/s。吞吐能力和购买的存储空间相关。更多信息请参见集群吞吐性能测试。

数据持久性和服务可用性

和文件存储NAS一样，文件存储HDFS版的数据在后端进行多副本存储，每份数据都有多份拷贝在故障域隔离的不同设备上存放，提供99.999999999%（11个9）的数据可靠性，能够有效降低数据安全风险。

扩展性和弹性

文件存储HDFS版能够为应用负载提供高吞吐量、高IOPS及低时延的存储性能。同时，其性能与容量成线性关系，可满足业务增长时对更高容量与存储性能的需求。

安全性

文件存储HDFS版具有文件系统标准权限控制、权限组访问控制和RAM用户等多种安全机制，从而保证文件系统数据安全万无一失。

接口

文件存储HDFS版的SDK包含文件系统SDK和管控系统SDK。目前公测期间只提供文件系统SDK，管控操作则通过控制台进行。文件存储HDFS版SDK实现了Hadoop FileSystem接口，提供一种Hadoop兼容的文件系统，对外输出为一个单独的JAR文件，即aliyun-sdk-dfs-x.y.z.jar。借助该SDK，Apache Hadoop的计算分析应用（如MapReduce、Hive、Spark、Flink等）可以无需修改代码和编译，直接使用文件存储HDFS版作为defaultFS，从而获得超越原始HDFS的功能和性能优势。

如果您更习惯使用图形化的Web应用程序，可以使用管理控制台来管理HDFS文件系统。

费用模型

文件存储HDFS版的计费项包括存储容量和预置吞吐。开通产品时默认按照实际使用量按小时计费（按量付费），同时也支持购买资源包（包年包月）的方式提前购买资源的使用额度和时长，获取更多的优惠。详情请参见云产品定价。