JindoFS实战的详细文档和演示视频-开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

备案控制台

输入文档关键字查找

通过JindoFS，您可以完成数据迁移、OSS访问加速、缓存加速、AI训练加速和JindoTable计算加速。本文为您介绍JindoFS实战的详细文档和演示视频。

注意如果视频断链表明该视频已过时，且已被下线。由于产品在不断更新迭代，请以官方控制台操作为准。

数据迁移


文档链接	视频链接	视频发布时间	描述
高效迁移HDFS海量文件到OSS	高效迁移HDFS海量文件到OSS	2021-05-11	通过Hadoop DistCp将HDFS海量文件同步到OSS存在很多问题，例如文件数量太大造成内存溢出、同步效率慢、无法保证数据一致性、不支持传输时进行归档或冷存储等。本视频为您介绍Jindo DistCp如何解决这些问题，以及如何通过Jindo DistCp将HDFS海量文件高效迁移到OSS。
使用Checksum迁移HDFS数据到OSS	使用Checksum迁移HDFS数据到OSS	2021-05-11	通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移过程中如何使用Checksum保证数据的一致性和完整性。
如何将HDFS海量文件归档到OSS	如何将HDFS海量文件归档到OSS	2021-05-18	如果您的数据存储在HDFS集群内，随着业务的发展，数据不断增长，可能导致存储空间不足、存储成本不断上升等问题，此时您可以将访问频率较低的HDFS数据归档到OSS中。本视频为您介绍如何使用Jindo DistCp将HDFS文件归档到OSS中，以及如何查看OSS数据的存储类型。
如何将Hive数据按照分区归档到OSS	如何将Hive数据按照分区归档到OSS	2021-05-18	传统集群架构存在很多问题，例如存储量与计算量无法一直匹配、存储无法水平扩展、存储与计算竞争硬盘资源等。为了解决这些问题，您可以将HDFS中的热数据保留，将冷数据归档到OSS中，实现存储与计算分离。本视频为您介绍如何将HDFS中的文件载入Hive表，然后将Hive中的数据按照分区归档到OSS。

OSS访问加速


文档链接	视频链接	视频发布时间	描述
访问OSS这类对象存储最快的方式	访问OSS这类对象存储最快的方式	2021-05-25	JindoFS SDK是一个简单易用，面向Hadoop或Spark生态的OSS客户端，为阿里云OSS提供高度优化的HadoopFileSystem。通过JindoFS SDK，您可以在Hadoop环境中直接使用`oss://bucket/`的方式访问阿里云OSS上的内容。本视频为您介绍JindoFS SDK的原理，以及相比开源Hadoop-OSS-SDK的优势。
Hadoop/Spark访问OSS加速	Hadoop/Spark访问OSS加速	2021-05-25	与开源的Hadoop-OSS-SDK相比，JindoFS SDK具有更优异的性能表现。能够兼容大部分的Hadoop版本、由阿里云EMR Hadoop专业团队维护、可靠性高、能够及时跟进OSS最新特性和优化、版本更新快。本视频为您介绍如何通过Hadoop或Spark，使用JindoFS SDK访问OSS。
Flink高效sink写入OSS	Flink高效sink写入OSS	2021-06-01	当您需要将流式数据写入OSS，或者需要在线分析数据时，可能会遇到的问题：开源Apache Flink还不支持直接写入OSS、Hadoop OSS SDK写入性能不满足需求。此时您可以使用JindoFS Flink Connector，解决这些问题。本视频为您介绍如何配置JindoFS Flink Connector，并在程序中使用JindoFS Flink Connector访问OSS。
Flume高效写入OSS	Flume高效写入OSS	2021-06-01	Flume是一个分布式、可靠、高可用的系统，支持从不同数据源高效地收集、聚合、迁移大量日志数据，聚合到中心化的数据存储服务，被广泛用于日志收集场景中。由于OSS本身不支持Flush功能，而Flume通过调用`flush()`能够保证事务性写入。Flume使用JindoFS SDK写入OSS，虽然不能让Flush后的数据立刻可见，但是可以保证Flush后的数据不丢失。Flume作业失败后，可以使用JindoFS命令恢复Flush过的数据。本视频为您介绍如何在Flume系统中，使用JindoFS SDK将数据写入OSS。
Presto如何高效查询OSS数据	Presto如何高效查询OSS数据	2021-06-08	Presto是一个开源的分布式SQL查询引擎，能够在任何存储介质上进行查询，支持原地查询，无需迁移数据。如果您已将HDFS数据迁移至OSS中，可通过在Presto中使用JindoFS SDK，高效查询这部分数据。本视频为您介绍如何在Presto中使用JindoFS SDK查询OSS中的数据。
Impala如何高效查询OSS数据	Impala如何高效查询OSS数据	2021-06-08	Apache Impala是一个开源的大数据查询分析引擎，能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中，可通过在Impala中使用JindoFS SDK，高效查询这部分数据。本视频为您介绍如何在Impala中使用JindoFS SDK查询OSS中的数据。
打开OSS多版本-合规和分析两不误	打开OSS多版本-合规和分析两不误	2021-06-15	阿里云对象存储OSS支持对象数据多版本管理，用于恢复已删除的数据、找回某个时间点的版本数据。本视频为您介绍如何开启OSS多版本、如何查看OSS对象的多版本。

JindoFS缓存加速


文档链接	视频链接	视频发布时间	描述
Spark访问OSS透明缓存加速	Spark访问OSS透明缓存加速	2021-06-22	JindoFS支持缓存模式。Spark任务读取OSS上的数据后，会自动缓存到JindoFS缓存系统中，后续访问相同的数据就能够命中缓存，大幅提高了查询效率。本视频为您介绍如何开启JindoFS SDK的缓存模式，使用Spark SQL高效访问OSS中的数据。
Presto访问OSS透明缓存加速	Presto访问OSS透明缓存加速	2021-06-22	JindoFS支持缓存模式。Presto SQL读取OSS上的数据后，会自动缓存到JindoFS缓存系统中，后续访问相同的数据就能够命中缓存，大幅提高了查询效率。本视频为您介绍如何开启JindoFS SDK的缓存模式，使用Presto SQL高效访问OSS中的数据。
指定表和分区预先缓存，查询分析更高效	指定表和分区预先缓存，查询分析更高效	2021-06-29	在存储分离架构中，计算节点剩余的磁盘、内存资源可以用于缓存加速。在通过JindoFS SDK访问OSS数据前，可先指定表和分区预先缓存数据，在后续查询分析时，可直接读取缓存中的数据，提高效率。本视频为您介绍如何在Hadoop集群中部署缓存服务，并通过JindoFS SDK指定表和分区来预先缓存数据。
云上计算云下数据：HDFS缓存加速	云上计算云下数据：HDFS缓存加速	2021-06-29	随着云计算越来越成熟，带来弹性扩容、运维方便、节省成本等优点，越来越多企业开始将大数据平台搬到云上。云下的HDFS集群存在历史数据，其中可能包含敏感数据，您希望继续将其保留于云下；或者因历史原因保留在其他云厂商上。但是在云上访问云下HDFS数据时可能存在网络延时、带宽限制、作业突发流量导致核心集群磁盘或网络被打满等问题，为解决这些问题，必须引入HDFS缓存加速。本视频为您介绍如何在Hadoop集群上部署缓存服务，以及如何通过JindoFS SDK快速访问HDFS。

AI训练加速


文档链接	视频链接	视频发布时间	描述
Fluid+JindoFS对OSS上的数据进行训练加速	Fluid+JindoFS对OSS上的数据进行训练加速	2021-07-06	Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用、AI应用等。Fluid JindoRuntime提供对OSS和HDFS的访问和缓存加速能力，并且可以实现像读取本地磁盘一样轻松使用OSS上的海量文件。本视频为您介绍如何使用Fluid JindoRuntime，通过JindoFS SDK快速访问OSS上的数据。
Fluid+JindoFS对HDFS上的数据进行训练加速	Fluid+JindoFS对HDFS上的数据进行训练加速	2021-07-13	在AI训练场景中处理HDFS数据面临很多问题，例如计算存储分离，数据读取性能较差，无法满足AI训练作业的IO性能、很多深度学习训练框架并不适配原生HDFS接口，大大增加了开发难度、HDFS集群压力大，甚至存在稳定性问题。而Fluid JindoRuntime支持数据亲和性调度、数据预加载和指定用户访问HDFS等功能，帮助您解决这些问题，实现HDFS访问加速。本视频为您介绍如何使用Fluid JindoRuntime，通过JindoFS SDK快速访问HDFS上的数据。
Fluid+JindoFS对海量小文件的训练加速	Fluid+JindoFS对海量小文件的训练加速	2021-07-13	在AI训练场景中处理海量小文件面临很多问题，例如远程调用频繁，NameNode压力大、访问数据延时高、高频访问稳定性低。Fluid JindoRuntime提供了高效的元数据缓存机制，对小文件进行存储优化，帮助您解决这些问题，提高小文件的处理速度。本视频为您介绍如何使用Fluid JindoRuntime，通过JindoFS SDK快速访问HDFS上的海量小文件。

JindoTable计算加速


文档链接	视频链接	视频发布时间	描述
Spark对OSS上的Parquet数据进行查询加速	Spark对OSS上的Parquet数据进行查询加速	2021-07-20	当前数据湖市场规模正在飞速增长，随着数据规模的增长，基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储，相对于本地存储，其性能受到网络带宽和负载机器的影响，存在性能瓶颈和波动，同时因为远端读取OSS单次IO比较慢，在列存等一些随机读比较多的场景，性能差距尤其明显（无法预读）。在此背景下，稳定且高性能的数据读取方案已经迫在眉睫。JindoFS通过Native Engine，配合filter push-down，能够提升在Spark、Hive或Presto上查询JindoFS或OSS上的Parquet或ORC文件的速度。本视频为您介绍如何在Spark上，使用JindoFS加速读取OSS上的Parquet数据。
Spark对OSS上的OCR数据进行查询加速	Spark对OSS上的OCR数据进行查询加速	2021-07-20	当前数据湖市场规模正在飞速增长，随着数据规模的增长，基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储，相对于本地存储，其性能受到网络带宽和负载机器的影响，存在性能瓶颈和波动，同时因为远端读取OSS单次IO比较慢，在列存等一些随机读比较多的场景，性能差距尤其明显（无法预读）。在此背景下，稳定且高性能的数据读取方案已经迫在眉睫。JindoFS通过Native Engine，配合filter push-down，能够提升在Spark、Hive或Presto上查询JindoFS或OSS上的Parquet或ORC文件的速度。本视频为您介绍如何在Spark上，使用JindoFS加速读取OSS上的OCR数据。
分层更高效，对Hive数仓进行热度/冷度统计	分层更高效，对Hive数仓进行热度/冷度统计	2021-07-27	传统的Hadoop集群中，没有对数据进行分层，导致数据量不断增加的同时，存储成本也在大幅增加，计算速度在不断下降。此时，您可以对集群中的数据进行热度和冷度的统计，将访问频率较低的冷数据迁移至低成本的OSS对象存储中，从而降低成本，加速业务计算能力。本视频为您介绍Hive、Spark和Presto如何开启热度和冷度统计。
对Hive数仓表进行高效小文件合并	对Hive数仓表进行高效小文件合并	2021-07-27	业务运行过程中（例如动态分区插入数据、reduce 操作频繁）会产生很多小文件，小文件太多会占用大量内存、严重影响集群性能。JindoTable提供表或分区级别的热度统计、存储分层和表文件优化的功能，显示表或者分区的状态，如果表文件过小会进行提示，根据提示您可以合并这些小文件，提高集群性能。本视频为您介绍如何合并Hive数仓表中的小文件。

上一篇：视频专区下一篇：EMR on ACK

该文章对您有帮助吗？