JindoCache概述

JindoCache(原JindoFSx)是阿里云EMR提供的用于加速云原生数据湖的一个服务。他提供了数据缓存和元数据缓存等加速功能,并根据不同的CacheSet提供不同的读写策略,以满足数据湖在不同使用场景下对访问加速的需求。

背景信息

CacheSet是JindoCache的缓存抽象。在实际使用中,并非所有的数据都需要缓存加速。考虑到数据湖的多样化计算需求和场景,JindoCache提供了细粒度的访问策略选择,您可以根据需要进行精确的配置。您可以根据具体情况选择激进的元数据缓存策略或完全不缓存某些数据,以实现最佳的性能和资源利用效率。

使用场景

JindoCache可以用于如下场景:

  • OLAP(Presto查询):提高查询性能,缩短查询时间。

  • DataServing(HBase):显著降低P99延迟,减少请求费用。

  • 大数据分析(Hive/Spark 报表):减少报表生成时间,优化计算集群成本。

  • 湖仓一体:减少请求费用,优化数据目录(catalog)的响应延迟。

  • AI:加速训练等场景,降低AI集群使用成本,提供更全面的能力支持。

缓存策略

JindoCache支持数据缓存(包括分布式数据缓存、一致性哈希数据缓存和本地缓存)和元数据缓存功能。