SmartData(仅对存量用户开放)
SmartData是E-MapReduce(简称EMR)产品的核心自研组件,为EMR各个计算引擎提供统一的存储优化、缓存优化、计算加速优化和多个存储功能扩展,涵盖数据访问、数据治理和数据安全。
SmartData组件在EMR产品中的位置如下所示。
SmartData组件包括:
JindoFS核心子系统:为各种远端存储系统提供缓存和缓存加速,详情请参见JindoFS介绍和使用。
JindoTable核心子系统:为表格数据源(例如Hive数仓)提供表和分区级别的优化和治理,详情请参见JindoTable使用说明。
JindoManager:提供JindoFS&JindoTable相关服务和功能的管理页面,例如,查看文件和表在缓存上的各种统计指标。
JindoSDK:为EMR各种开源计算引擎提供统一的SDK,支持Java、C、C++和Python语言,提供多种访问和API接口,包括HCFS文件系统接口、POSIX接口和Table表格接口。
工具集: 提供相关的工具集,例如Jindo tool和迁移工具Jindo DistCp。
各种Connectors:包括Hadoop connector、Flink connector和TensorFlow connector,支持Kite SDK、Apache Beams、Flume、Sqoop和Kafka。
SmartData目前通过JindoFS和JindoTable支持的数据源,包括阿里云OSS、Apache Hadoop HDFS、Hive数仓和阿里云MaxCompute。
SmartData作为EMR产品核心自研组件,独立开发与版本发布,详细版本请参见发行版本。