JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。

JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、JindoFSx存储加速系统(原JindoFS Cache模式),JindoSDK大数据万能SDK和全面兼容的生态工具(JindoFuse、JindoDistCp)以及插件支持。JindoData

注意事项

JindoData适用于EMR-5.14.0及之前版本,EMR-3.48.0及之前版本。

EMR-5.15.0及之后版本、EMR-3.49.0及之后版本,不支持选择JindoData。您可以使用JindoCache来实现缓存功能,使用DLF-Auth来实现鉴权功能。

JindoFS存储系统

基于阿里云OSS的云原生存储系统,二进制兼容Apache HDFS,并且与Apache HDFS基本功能对齐,提供优化的HDFS使用和平迁体验。JindoFS存储系统是原JindoFS Block模式的全新升级版本。

阿里云OSS-HDFS服务(JindoFS服务)是JindoFS存储系统在阿里云上的服务化部署形态,和阿里云OSS深度融合,开箱即用,无须在自建集群部署维护JindoFS,即免运维。

OSS-HDFS服务的详细信息,请参见什么是OSS-HDFS服务

JindoFSx存储加速系统

JindoFSx(JindoData服务)是原JindoFS Cache模式的全新升级版本,是面向大数据和AI生态的云原生数据湖存储加速系统,为大数据和AI应用访问各种云存储提供访问加速,支持数据缓存、元数据缓存和P2P加速等功能。JindoFSx支持管理多个后端存储系统,可以通过统一命名空间进行管理,也可以兼容各系统原生的访问协议,也支持为这些系统提供统一的权限管理。原生优化支持阿里云OSS和阿里云OSS-HDFS服务,同时也支持业界多云对象存储(例如,Amazon S3)、 Apache HDFS和NAS。

生态支持和工具

  • 支持JindoSDK。

    支持面向云时代的大数据Hadoop SDK和HDFS接口,内置优化访问阿里云OSS,较Hadoop社区版本性能大幅提升。同时支持JindoFS存储系统和服务、JindoFSx存储加速系统,支持多云对象存储。

  • 支持JindoShell CLI。

    JindoData除了支持HDFS Shell命令,还提供了一套JindoShell CLI命令,从功能、性能上大幅扩展和优化一些数据访问操作。

  • 支持JindoFuse POSIX。

    JindoData为阿里云OSS、JindoFS存储系统和服务、JindoFSx存储加速系统提供了POSIX支持。

  • 支持JindoDistCp数据迁移。

    IDC机房数据(HDFS)上云迁移和多云迁移利器,支持多种存储数据迁移到阿里云OSS和JindoFS服务,使用上类似Hadoop DistCp。

  • 支持JindoTable。

    结合计算引擎的使用推出的一套解决方案,支持Spark、Hive和Presto等引擎,以及表格式数据的管理功能。

  • 生态插件。

    除了默认提供JindoSDK支持Hadoop,另外还支持Flink Connector等插件。