通过JindoFS,您可以完成数据迁移、OSS访问加速、缓存加速、AI训练加速和JindoTable计算加速。本文为您介绍JindoFS实战的详细文档和演示视频。

注意 如果视频断链表明该视频已过时,且已被下线。由于产品在不断更新迭代,请以官方控制台操作为准。

数据迁移

文档链接 视频链接 视频发布时间 描述
高效迁移HDFS海量文件到OSS 高效迁移HDFS海量文件到OSS 2021-05-11 通过Hadoop DistCp将HDFS海量文件同步到OSS存在很多问题,例如文件数量太大造成内存溢出、同步效率慢、无法保证数据一致性、不支持传输时进行归档或冷存储等。

本视频为您介绍Jindo DistCp如何解决这些问题,以及如何通过Jindo DistCp将HDFS海量文件高效迁移到OSS。

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法,你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。

本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS,以及在迁移过程中如何使用Checksum保证数据的一致性和完整性。

如何将HDFS海量文件归档到OSS 如何将HDFS海量文件归档到OSS 2021-05-18 如果您的数据存储在HDFS集群内,随着业务的发展,数据不断增长,可能导致存储空间不足、存储成本不断上升等问题,此时您可以将访问频率较低的HDFS数据归档到OSS中。

本视频为您介绍如何使用Jindo DistCp将HDFS文件归档到OSS中,以及如何查看OSS数据的存储类型。

如何将Hive数据按照分区归档到OSS 如何将Hive数据按照分区归档到OSS 2021-05-18 传统集群架构存在很多问题,例如存储量与计算量无法一直匹配、存储无法水平扩展、存储与计算竞争硬盘资源等。为了解决这些问题,您可以将HDFS中的热数据保留,将冷数据归档到OSS中,实现存储与计算分离。

本视频为您介绍如何将HDFS中的文件载入Hive表,然后将Hive中的数据按照分区归档到OSS。

OSS访问加速

文档链接 视频链接 视频发布时间 描述
访问OSS这类对象存储最快的方式 访问OSS这类对象存储最快的方式 2021-05-25 JindoFS SDK是一个简单易用,面向Hadoop或Spark生态的OSS客户端,为阿里云OSS提供高度优化的HadoopFileSystem。通过JindoFS SDK,您可以在Hadoop环境中直接使用oss://bucket/的方式访问阿里云OSS上的内容。

本视频为您介绍JindoFS SDK的原理,以及相比开源Hadoop-OSS-SDK的优势。

Hadoop/Spark访问OSS加速 Hadoop/Spark访问OSS加速 2021-05-25 与开源的Hadoop-OSS-SDK相比,JindoFS SDK具有更优异的性能表现。能够兼容大部分的Hadoop版本、由阿里云EMR Hadoop专业团队维护、可靠性高、能够及时跟进OSS最新特性和优化、版本更新快。

本视频为您介绍如何通过Hadoop或Spark,使用JindoFS SDK访问OSS。

Flink高效sink写入OSS Flink高效sink写入OSS 2021-06-01 当您需要将流式数据写入OSS,或者需要在线分析数据时,可能会遇到的问题:开源Apache Flink还不支持直接写入OSS、Hadoop OSS SDK写入性能不满足需求。此时您可以使用JindoFS Flink Connector,解决这些问题。

本视频为您介绍如何配置JindoFS Flink Connector,并在程序中使用JindoFS Flink Connector访问OSS。

Flume高效写入OSS Flume高效写入OSS 2021-06-01 Flume是一个分布式、可靠、高可用的系统,支持从不同数据源高效地收集、聚合、迁移大量日志数据,聚合到中心化的数据存储服务,被广泛用于日志收集场景中。

由于OSS本身不支持Flush功能,而Flume通过调用flush()能够保证事务性写入。Flume使用JindoFS SDK写入OSS,虽然不能让Flush后的数据立刻可见,但是可以保证Flush后的数据不丢失。Flume作业失败后,可以使用JindoFS命令恢复Flush过的数据。

本视频为您介绍如何在Flume系统中,使用JindoFS SDK将数据写入OSS。

Presto如何高效查询OSS数据 Presto如何高效查询OSS数据 2021-06-08 Presto是一个开源的分布式SQL查询引擎,能够在任何存储介质上进行查询,支持原地查询,无需迁移数据。如果您已将HDFS数据迁移至OSS中,可通过在Presto中使用JindoFS SDK,高效查询这部分数据。

本视频为您介绍如何在Presto中使用JindoFS SDK查询OSS中的数据。

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎,能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中,可通过在Impala中使用JindoFS SDK,高效查询这部分数据。

本视频为您介绍如何在Impala中使用JindoFS SDK查询OSS中的数据。

打开OSS多版本-合规和分析两不误 打开OSS多版本-合规和分析两不误 2021-06-15 阿里云对象存储OSS支持对象数据多版本管理,用于恢复已删除的数据、找回某个时间点的版本数据。

本视频为您介绍如何开启OSS多版本、如何查看OSS对象的多版本。

JindoFS缓存加速

文档链接 视频链接 视频发布时间 描述
Spark访问OSS透明缓存加速 Spark访问OSS透明缓存加速 2021-06-22 JindoFS支持缓存模式。Spark任务读取OSS上的数据后,会自动缓存到JindoFS缓存系统中,后续访问相同的数据就能够命中缓存,大幅提高了查询效率。

本视频为您介绍如何开启JindoFS SDK的缓存模式,使用Spark SQL高效访问OSS中的数据。

Presto访问OSS透明缓存加速 Presto访问OSS透明缓存加速 2021-06-22 JindoFS支持缓存模式。Presto SQL读取OSS上的数据后,会自动缓存到JindoFS缓存系统中,后续访问相同的数据就能够命中缓存,大幅提高了查询效率。

本视频为您介绍如何开启JindoFS SDK的缓存模式,使用Presto SQL高效访问OSS中的数据。

指定表和分区预先缓存,查询分析更高效 指定表和分区预先缓存,查询分析更高效 2021-06-29 在存储分离架构中,计算节点剩余的磁盘、内存资源可以用于缓存加速。在通过JindoFS SDK访问OSS数据前,可先指定表和分区预先缓存数据,在后续查询分析时,可直接读取缓存中的数据,提高效率。

本视频为您介绍如何在Hadoop集群中部署缓存服务,并通过JindoFS SDK指定表和分区来预先缓存数据。

云上计算云下数据:HDFS缓存加速 云上计算云下数据:HDFS缓存加速 2021-06-29 随着云计算越来越成熟,带来弹性扩容、运维方便、节省成本等优点,越来越多企业开始将大数据平台搬到云上。云下的HDFS集群存在历史数据,其中可能包含敏感数据,您希望继续将其保留于云下;或者因历史原因保留在其他云厂商上。但是在云上访问云下HDFS数据时可能存在网络延时、带宽限制、作业突发流量导致核心集群磁盘或网络被打满等问题,为解决这些问题,必须引入HDFS缓存加速。

本视频为您介绍如何在Hadoop集群上部署缓存服务,以及如何通过JindoFS SDK快速访问HDFS。

AI训练加速

文档链接 视频链接 视频发布时间 描述
Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。Fluid JindoRuntime提供对OSS和HDFS的访问和缓存加速能力,并且可以实现像读取本地磁盘一样轻松使用OSS上的海量文件。

本视频为您介绍如何使用Fluid JindoRuntime,通过JindoFS SDK快速访问OSS上的数据。

Fluid+JindoFS对HDFS上的数据进行训练加速 Fluid+JindoFS对HDFS上的数据进行训练加速 2021-07-13 在AI训练场景中处理HDFS数据面临很多问题,例如计算存储分离,数据读取性能较差,无法满足AI训练作业的IO性能、很多深度学习训练框架并不适配原生HDFS接口,大大增加了开发难度、HDFS集群压力大,甚至存在稳定性问题。而Fluid JindoRuntime支持数据亲和性调度、数据预加载和指定用户访问HDFS等功能,帮助您解决这些问题,实现HDFS访问加速。

本视频为您介绍如何使用Fluid JindoRuntime,通过JindoFS SDK快速访问HDFS上的数据。

Fluid+JindoFS对海量小文件的训练加速 Fluid+JindoFS对海量小文件的训练加速 2021-07-13 在AI训练场景中处理海量小文件面临很多问题,例如远程调用频繁,NameNode压力大 、访问数据延时高、高频访问稳定性低。Fluid JindoRuntime提供了高效的元数据缓存机制,对小文件进行存储优化,帮助您解决这些问题,提高小文件的处理速度。

本视频为您介绍如何使用Fluid JindoRuntime,通过JindoFS SDK快速访问HDFS上的海量小文件。

JindoTable计算加速

文档链接 视频链接 视频发布时间 描述
Spark对OSS上的Parquet数据进行查询加速 Spark对OSS上的Parquet数据进行查询加速 2021-07-20 当前数据湖市场规模正在飞速增长,随着数据规模的增长,基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储,相对于本地存储,其性能受到网络带宽和负载机器的影响,存在性能瓶颈和波动,同时因为远端读取OSS单次IO比较慢,在列存等一些随机读比较多的场景,性能差距尤其明显(无法预读)。在此背景下,稳定且高性能的数据读取方案已经迫在眉睫。JindoFS通过Native Engine,配合filter push-down,能够提升在Spark、Hive或Presto上查询JindoFS或OSS上的Parquet或ORC文件的速度。

本视频为您介绍如何在Spark上,使用JindoFS加速读取OSS上的Parquet数据。

Spark对OSS上的OCR数据进行查询加速 Spark对OSS上的OCR数据进行查询加速 2021-07-20 当前数据湖市场规模正在飞速增长,随着数据规模的增长,基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储,相对于本地存储,其性能受到网络带宽和负载机器的影响,存在性能瓶颈和波动,同时因为远端读取OSS单次IO比较慢,在列存等一些随机读比较多的场景,性能差距尤其明显(无法预读)。在此背景下,稳定且高性能的数据读取方案已经迫在眉睫。JindoFS通过Native Engine,配合filter push-down,能够提升在Spark、Hive或Presto上查询JindoFS或OSS上的Parquet或ORC文件的速度。

本视频为您介绍如何在Spark上,使用JindoFS加速读取OSS上的OCR数据。

分层更高效,对Hive数仓进行热度/冷度统计 分层更高效,对Hive数仓进行热度/冷度统计 2021-07-27 传统的Hadoop集群中,没有对数据进行分层,导致数据量不断增加的同时,存储成本也在大幅增加,计算速度在不断下降。此时,您可以对集群中的数据进行热度和冷度的统计,将访问频率较低的冷数据迁移至低成本的OSS对象存储中,从而降低成本,加速业务计算能力。

本视频为您介绍Hive、Spark和Presto如何开启热度和冷度统计。

对Hive数仓表进行高效小文件合并 对Hive数仓表进行高效小文件合并 2021-07-27 业务运行过程中(例如动态分区插入数据、reduce 操作频繁)会产生很多小文件,小文件太多会占用大量内存、严重影响集群性能。JindoTable提供表或分区级别的热度统计、存储分层和表文件优化的功能, 显示表或者分区的状态,如果表文件过小会进行提示,根据提示您可以合并这些小文件,提高集群性能。

本视频为您介绍如何合并Hive数仓表中的小文件。