JindoData(仅对存量用户开放)
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。
JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、JindoFSx存储加速系统(原JindoFS Cache模式),JindoSDK大数据万能SDK和全面兼容的生态工具(JindoFuse、JindoDistCp)以及插件支持。
注意事项
JindoData适用于EMR-5.14.0及之前版本,EMR-3.48.0及之前版本。
EMR-5.15.0及之后版本、EMR-3.49.0及之后版本,不支持选择JindoData。您可以使用JindoCache来实现缓存功能,使用DLF-Auth来实现鉴权功能。
JindoFS存储系统
基于阿里云OSS的云原生存储系统,二进制兼容Apache HDFS,并且与Apache HDFS基本功能对齐,提供优化的HDFS使用和平迁体验。JindoFS存储系统是原JindoFS Block模式的全新升级版本。
阿里云OSS-HDFS服务(JindoFS服务)是JindoFS存储系统在阿里云上的服务化部署形态,和阿里云OSS深度融合,开箱即用,无须在自建集群部署维护JindoFS,即免运维。
OSS-HDFS服务的详细信息,请参见什么是OSS-HDFS服务。
JindoFSx存储加速系统
JindoFSx(JindoData服务)是原JindoFS Cache模式的全新升级版本,是面向大数据和AI生态的云原生数据湖存储加速系统,为大数据和AI应用访问各种云存储提供访问加速,支持数据缓存、元数据缓存和P2P加速等功能。JindoFSx支持管理多个后端存储系统,可以通过统一命名空间进行管理,也可以兼容各系统原生的访问协议,也支持为这些系统提供统一的权限管理。原生优化支持阿里云OSS和阿里云OSS-HDFS服务,同时也支持业界多云对象存储(例如,Amazon S3)、 Apache HDFS和NAS。
生态支持和工具
支持JindoSDK。
支持面向云时代的大数据Hadoop SDK和HDFS接口,内置优化访问阿里云OSS,较Hadoop社区版本性能大幅提升。同时支持JindoFS存储系统和服务、JindoFSx存储加速系统,支持多云对象存储。
支持JindoShell CLI。
JindoData除了支持HDFS Shell命令,还提供了一套JindoShell CLI命令,从功能、性能上大幅扩展和优化一些数据访问操作。
支持JindoFuse POSIX。
JindoData为阿里云OSS、JindoFS存储系统和服务、JindoFSx存储加速系统提供了POSIX支持。
支持JindoDistCp数据迁移。
IDC机房数据(HDFS)上云迁移和多云迁移利器,支持多种存储数据迁移到阿里云OSS和JindoFS服务,使用上类似Hadoop DistCp。
支持JindoTable。
结合计算引擎的使用推出的一套解决方案,支持Spark、Hive和Presto等引擎,以及表格式数据的管理功能。
生态插件。
除了默认提供JindoSDK支持Hadoop,另外还支持Flink Connector等插件。