JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。
背景信息
JindoData是原阿里云EMR SmartData组件的升级版本。具体介绍请参见JindoData(仅对存量用户开放)。
JindoData 4.6.x版本
概要
JindoData 4.6.x版本推出平滑迁移功能,支持HDFS到OSS-HDFS平滑迁移。可以极大的简化数据迁移流程。JindoFS存储系统支持文件清单功能,您可以基于文件清单功能更好了解数据的分布以及归属。在性能优化方面,JindoFS存储系统通过存量以及增量的方式优化Du和Count性能,显著提升Du和Count操作性能。对于JindoSDK而言,JindoSDK 4.6.x版本支持文件以及数据块级别的校验,提高JindoSDK写入链路的稳定性。此外,JindoSDK还支持多路径访问协议,支持不同协议模式访问同一后端路径。
JindoData 4.6.11版本
JindoData 4.6.11版本修复了以下问题:
JindoSDK修复了使用JindoCommitter在Aliyun EMR Hadoop 2.8.5环境下使用老的mapred接口写数据的问题。
优化了JindoTable,针对OSS上的表或分区进行解冻的功能,支持设置解冻天数,详情请参见使用JindoTable实现对OSS上表或分区的归档和解冻。
JindoData 4.6.10版本
JindoData4.6.10版本修复了以下问题:
优化了JindoFS 的pread预读逻辑。
JindoSDK支持并发commit task,优化了作业commit性能。
优化了JindoSDK路径改写的逻辑。
修复了JindoFuse在对象append时遇到的问题。
JindoData 4.6.8版本
JindoData4.6.8版本修复了以下问题:
JindoFS支持客户端设置回收站保留时间。
JindoSDK支持通过MALLOC_CONF优化内存使用。
JindoFuse支持在挂载OSS-HDFS时进行优雅的退出。
JindoFSx支持通过通配符筛选缓存预热的文件列表。
JindoFSx修复清理缓存不生效的问题。
JindoData 4.6.7版本
JindoData4.6.7版本修复了以下问题:
JindoFuse支持优雅退出机制。
JindoFuse优化了日志输出。
修复了JindoFuse在挂载OSS时,不支持O_APPEND或O_TRUNC的问题。
JindoData 4.6.6版本
优化了distjob或distcp任务的并行度,同时保证并行度最大不超过任务数量。
JindoData 4.6.5版本
JindoData4.6.5版本是在4.6.4版本基础上进行了大量修复和优化,包括以下内容:
添加了OSS scheme的ServiceLoader,指向JindoOssFileSystem。
优化了isDirectory()方法的异常逻辑,对于带有
Path *的目录,isDirectory()接口返回false,而不是抛出IllegalPath异常。优化了Hadoop SDK,解决了在部分场景下可能出现的Hadoop配置并发修改异常ConcurrentModificationException的问题。
优化了临时目录异常或者出现坏盘时,JindoMagicCommitter客户端写OSS的重试逻辑,以最大程度保证作业写入成功并避免InvalidPart异常
One or more of the specified parts could not be found or the specified entity tag might not have matched the part's entity tag.。
JindoData 4.6.4版本
JindoData 4.6.4版本新增多平台支持。
支持平台请参见JindoData下载。
对于Java平台,可以通过部署多个jindo-core实现多平台支持。默认情况下,jindo-core支持主流的Linux系统,如果需要在其他平台上使用,则需要额外引入对应平台的扩展包。
JindoData的Maven仓库已经同步上传了多平台支持的依赖包。以访问OSS为例,使用Maven构建项目时,您可以参考依赖配置jindosdk_ide_hadoop.md。
例如,如果要在主流Linux上部署Hadoop集群 ,则需要将jindo-core-4.6.4.jar和jindo-sdk-4.6.4.jar添加到指定的classpath中。如果要在macOS上运行和调试,则需要jindo-core-4.6.4.jar和jindo-sdk-4.6.4.jar,并且还需要引入jindo-core-macos-10_14-x86_64-4.6.4.jar拓展包。
请前往JindoData下载页面下载jindosdk-4.6.10-macos-10_14-x86_64.tar.gz,其中包含了本示例所需的jindo-core-4.6.4.jar、jindo-sdk-4.6.4.jar和jindo-core-macos-10_14-x86_64-4.6.4.jar拓展包。
JindoData 4.6.2版本
JindoData4.6.2版本是在4.6.1版本基础上做了大量的修复。JindoFS存储系统修复如下:
JindoFS存储系统
修复分层存储STD转STD时导致服务卡住问题。
修复分层存储产生空manifest导致服务卡住问题。
加速分层存储任务执行速度。
修复RootPolicy功能逻辑。
修复setAcl偶发服务crash问题。
修复低概率发生DB manifest文件占满磁盘的问题。
修复迁移服务的批量元数据导入功能。
JindoData 4.6.1版本
JindoFS存储系统
JindoFS减少一些冗余日志打印。
修复元数据清单导出没有close的文件时大小错误问题。
JindoFSx存储加速系统
JindoFSx支持缓存临时目录实现自清理。
JindoSDK和工具支持
优化JindoSDK输出体积过大问题。
Du、Count默认开启通过服务端优化路径。
降低STS更新频率,避免频繁发送请求导致限流。
免密URL的RAM改为小写,避免ECS免密服务内部刷新token失败。
JindoData 4.6.0版本
JindoFS存储系统
JindoFS支持OSS-HDFS文件清单导出功能,您可以基于文件清单功能更好的了解数据分布以及二次开发。
JindoFS通过服务端存量和增量的优化,显著提高Du和Count操作的性能。
JindoFS支持HDFS到OSS-HDFS平滑迁移功能,极大的简化HDFS到OSS-HDFS数据迁移流程。
JindoFS支持多路径协议访问,您可以使用不同访问协议访问同一后端路径。
JindoFSx存储加速系统
修复JindoFSx客户端写缓存时导致客户端异常退出问题。
修复JindoFSx客户端Metrics上报导致客户端异常退出问题。
修复JindoFSx Ranger使用过程中内存泄漏问题。
JindoSDK和工具支持
JindoSDK支持CRC和MD5 Checksum校验,支持文件级别以及数据块级别的写入校验。
支持Jindo Sync数据同步工具,您可以不依赖Hadoop环境进行数据同步。
JindoSDK支持OSS-HDFS TensorFlow Connector。
JindoData 4.5.X版本
JindoData 4.5.1版本
版本概要
4.5.1版本是对4.5.0版本的小幅升级,进行了重要的修复和改进。JindoFS改进了服务稳定性以及一些异常情况处理。JindoFS和JindoFSx进一步改进自适应预读算法,提高预读效率。JindoDistCp做了大量修复和优化,增强了数据拷贝过程的稳定性。JindoFuse采用了新的底层设计,进一步提高了性能。
主要功能
JindoFS存储系统
JindoFS改进了内存使用问题。
JindoFS添加
ASSUME_ROLE错误的异常处理和日志告警。JindoFS支持重试时更新动态AccessKey。
JindoFS进一步改进自适应预读算法,提升预读效率。
JindoFS文件随机写场景的读写路径修复。
JindoFS支持CheckAccess接口。
JindoFSx存储加速系统
JindoFSx进一步改进自适应预读算法,提升预读效率。
JindoFSx支持路径带空格。
JindoFSx改进多副本读可能存在热点的问题。
JindoSDK和工具支持
Jindo命令提供完整的Hadoop命令覆盖。
Jindo命令增加对HDFS的纯Native支持,大幅提升性能和您使用体验。
JindoDistCp支持对接阿里云监控(CloudMonitor)。
JindoDistCp支持OSS数据迁移到HDFS路径的CheckSum检查。
JindoDistCp支持Job切分参数。
JindoDistCp修复拷贝过程中源文件删除错误处理逻辑。
JindoSDK优化随机读的内存占用。
JindoFuse POSIX支持
JindoFuse使用Low-level API重新设计,大幅提高
readdir等操作的性能。JindoFuse修复挂载JindoFSx后出现异常程序List根目录问题。
JindoData 4.5.0版本
版本概要
JindoFS存储系统上着重优化元数据的操作性能,使得相关元数据性能得到显著的提升。完善JindoFS分层存储功能,支持低频以及冷归档存储类型。支持批量写入功能,优化大规模ETL作业性能。在SDK与生态组件方面,提供了去Hadoop依赖的Java SDK。
主要功能
JindoFS存储系统
JindoFS元数据操作性能优化,相关元数据操作性能显著提升。
JindoFS完善分层存储功能,支持低频以及冷归档存储类型。
JindoFS支持批量写入功能,优化大规模ETL作业性能。
JindoFS修复服务端授权错误时,访问OSS会导致服务异常的问题。
JindoFSx存储加速系统
JindoFSx修复Storage服务文件句柄泄漏问题。
JindoFSx修复客户端metrics上报线程安全问题。
JindoFSx优化递归创建父目录性能。
JindoFSx优化路径改写功能性能。
JindoSDK和工具支持
JindoSDK支持自适应预读算法,提升预读效率。
JindoSDK支持基于表格存储原子Rename功能。
JindoDistCp优化Diff功能,支持输出Diff文件。
JindoSDK统一处理重试错误,解决服务端IP变化导致的客户端重现失败问题。
JindoSDK提供了去Hadoop依赖的Java SDK,与HadoopSDK、ObjectSDK平级。
JindoFuse POSIX支持
JindoFuse修复JindoFSx开启缓存List操作导致的内存泄漏问题。
JindoData 4.4.x版本
版本概要
JindoFS存储系统上实现分层存储和归档功能,利用阿里云OSS的分层存储能力兼容HDFS分层存储策略。该功能可以让您选择较低成本的存储策略来存储访问频率较低的数据,从而降低总的存储成本。此外,JindoFS新支持了HDFS AuditLog功能,大幅提升了对Apache HDFS的接口兼容、功能对齐和数据迁移能力。完善了OSS数据快速导入和半托管JindoFS迁移。JindoFS功能目前通过阿里云OSS-HDFS服务对外提供,详细信息请参见什么是OSS-HDFS服务。
在JindoFSx存储加速系统上,JindoData 4.4.x版本支持了客户端本地缓存(LocalCache),提供了纯客户端的缓存加速的能力,大幅改进和优化了在元数据缓存上的能力,完善了对阿里云NAS的缓存加速上的支持。
在SDK与生态组件方面,大幅提升了多个操作上的性能和吞吐,支持了Object SDK,在兼容OSS对象存储API的同时大幅提升了各项操作的性能,同时无缝对接JindoFSx加速能力。推出了JindoDistJob工具,支持半托管JindoFS全量和增量迁移文件元数据,支持您在不迁移数据块的同时平稳切换到JindoFS服务化的方案上。大幅增强了JindoDistCp迁移工具,实现Apache HDFS到JindoFS服务的无损迁移,保证了文件元数据的拷贝。
主要功能
JindoFS存储系统
JindoFS支持分层存储和归档,兼容HDFS存储策略。
JindoFS支持BatchImport,提供了文件数据批量导入的能力。
JindoFS支持HDFS AuditLog审计日志。
JindoFS支持Concat和SymLink接口。
JindoFS优化了文件数据的后台清理能力。
JindoFS优化了Lease和Lock相关操作的性能。
JindoFSx存储加速系统
JindoFSx支持缓存插件,并提供了客户端缓存模式。
JindoFSx支持鉴权插件化,默认情况下无须安装KRB5和SASL库依赖。
JindoFSx大幅优化了元数据缓存性能,完善了对阿里云NAS的缓存加速的支持。
JindoSDK和工具支持
JindoSDK完善了对HTTPS的支持,改进了对弱网环境的容错能力。
JindoSDK改进了部署,默认情况下去除了对KRB5和SASL库的依赖。
JindoSDK增加支持OSS对象存储API,大幅提升操作性能并无缝对接JindoFSx缓存加速能力。
新增JindoDistJob工具,支持半托管JindoFS Block模式数据快速迁移到JindoFS服务。
JindoDistCp大幅完善对Apache HDFS到JindoFS服务的数据迁移能力,文件元数据一起无损迁移。
JindoFuse POSIX支持
JindoFuse优化了大文件顺序读的性能。
JindoData 4.3.x版本
版本概要
JindoData 4.3.0版本完全支持多云架构,有能力同时具备多云、多存储、多种加速扩展、多协议和多种开发语言支持的数据湖存储解决方案。JindoFS存储系统在POSIX支持上做了大幅改进,JindoFSx系统首次支持Kerberos+Ranger安全扩展,JindoSDK和生态工具在测试覆盖上也做了大幅提升。
主要功能
JindoSDK和工具支持
JindoSDK支持多云存储,包括Amazon S3、COS和OBS。
JindoSDK提供JindoTable工具。
JindoSDK优化了Flink Connector插件。
JindoSDK完善了JindoDistCp。
JindoFSx存储加速系统
JindoFSx支持多云存储,包括Amazon S3、COS和OBS。
JindoFSx优化了数据缓存及元数据缓存。
JindoFSx支持Kerberos+Ranger的鉴权方案。
JindoFSx大幅完善了可观测性指标。
JindoFSx完成与Fluid的对接。
JindoFS存储系统
JindoFS支持POSIX Lock和Fallocate能力。
JindoFS支持老版本JindoFS Block模式集群升级。
JindoFuse POSIX支持
JindoFuse新增XAttr相关接口支持,包括Setxattr、Getxattr、Listxattr和Removexattr。
JindoFuse支持POSIX Lock和Fallocate能力。
JindoFuse支持OSS可追加写对象,包括Append、Flush和边写边读功能。
JindoData 4.2.x版本
版本概要
JindoData 4.2.0版本大幅完善JindoFSx存储加速系统,添加对Apache HDFS和阿里云NAS存储产品的缓存加速,增强和提供JindoFuse、JindoDistCp和JindoTable等工具。
主要功能
JindoFSx存储加速系统
支持对阿里云Apache HDFS透明缓存加速(保持
hdfs://不变)和统一挂载加速(fsx://)。支持对阿里云NAS存储产品提供统一挂载加速(
fsx://)。全面对接和支持阿里云OSS-HDFS服务(JindoFS服务),完善写入路径支持。
JindoSDK和工具支持
首次支持C/C++版本的JindoSDK,提供类似POSIX的接口方法。
支持JindoFuse POSIX,改进和完善JindoFuse工具,基于JindoSDK C/C++版本构建。
支持JindoDistCp数据迁移,重构和改进JindoDistCp工具,简化和去除3.x版本中的不常用功能,增强易用性和健壮性。
支持JindoTable工具,重构和改进JindoTable工具,简化和去除3.x版本中的不常用功能,增强易用性和健壮性。
JindoData 4.1.x版本
版本概要
JindoData 4.1.0版本在阿里云OSS-HDFS服务(JindoFS服务)上支持随机写等重要特性,并添加JindoFSx存储加速系统,支持对原生阿里云OSS和OSS-HDFS服务(JindoFS服务)提供分布式缓存。
主要功能
JindoFS存储系统
JindoFS服务能力
支持文件随机写,文件可修改写入。
支持HDFS回收站,系统后台按过期时间清理回收站文件。
完善HDFS快照功能,快照支持随机修改文件。
改进目录删除机制,大幅提升操作性能。
实现NsWorker框架,支持元数据服务将一些繁重处理卸载到Follower、Learner节点上去执行。
JindoShell CLI支持
支持您使用命令设定HDFS回收站过期时间。
改进
dumpFile命令,输出随机写文件相关信息。
JindoFuse POSIX支持
支持文件随机修改(Seek and Write)。
JindoFSx存储加速系统
JindoFSx核心能力
支持对阿里云OSS透明缓存加速(保持
oss://不变)。支持对阿里云OSS-HDFS服务(JindoFS服务)透明缓存加速(保持
oss://不变)。统一命名空间功能,支持将OSS或OSS-HDFS挂载到同一个命名空间,使用
fsx://前缀进行统一操作。支持大规模文件元数据缓存加速。
支持小文件训练加速。
支持P2P加速,对大量训练节点同时预热加载模型文件场景,大幅提升缓存读取性能。
JindoSDK Hadoop支持
提供
JindoOssFileSystem支持OSS与OSS-HDFS的透明缓存加速使用。提供
JindoFsxFileSystem支持统一名字空间方式使用。
JindoShell CLI支持
支持JindoFSx数据缓存命令。
支持JindoFSx元数据缓存命令。
支持JindoFSx统一命名空间管理命令。
JindoFuse POSIX支持
支持
oss://路径Fuse挂载,读写JindoFSx缓存。支持
fsx://路径Fuse挂载,读写JindoFSx缓存。
JindoData 4.0.x版本
版本概要
JindoData 4.0.0是原阿里云EMR SmartData自研组件(大版本到3.8.0)架构升级之后的首次版本发布,重点对接和支持了阿里云OSS存储产品和阿里云OSS-HDFS服务(JindoFS服务)。
说明JindoData 4.0.0版本暂未发布JindoFSx存储加速系统。
主要功能
阿里云OSS服务
JindoSDK Hadoop支持
为阿里云OSS提供了Java Hadoop SDK,完全兼容Hadoop OSS Connector,大幅提升了性能。
支持多种Credential Provider设置方式,包括配置、ECS Role和EMR免密机制。
支持写入时归档,包括归档和深冷归档。
JindoShell CLI支持
对Hadoop或HDFS Shell提供额外的命令扩展,为阿里云OSS提供面向Hadoop使用的操作方式。
支持
ls2扩展命令,在标准ls命令的基础上可以额外显示文件或对象在OSS上的存储状态。例如,标准、低频还是归档。支持
archive命令,允许指定目录进行转归档操作。支持
restore命令,允许指定目录进行解冻操作。
JindoFuse POSIX支持
为阿里云OSS提供优化后的Fuse客户端,受益于完全Native代码的开发实现,大幅提升了性能。
JindoDistCp数据迁移
支持将自建HDFS集群数据迁移到阿里云OSS,针对大文件和大量小文件场景优化。
阿里云OSS-HDFS服务(JindoFS服务)
JindoFS服务
为阿里云OSS产品增加一种新的Bucket存储选项,提供元数据加速功能,二进制兼容且功能全面对齐Apache HDFS,支持HDFS您平迁上云。
原生支持文件系统目录语义,大幅优化目录操作,超大目录Rename支持原子性和毫秒级能力。
原生支持文件系统文件语义,支持HDFS写租约、一写多读和边写边读。
支持文件
append写入、flush、sync和truncate操作。支持HDFS快照,支持近乎无限次快照数量,方便数据备份、容灾和恢复。
支持文件权限。用户组信息支持您通过
JindoShell命令导入设定(UserGroupsMapping)。支持Hadoop Proxy User访问控制机制。
JindoSDK Hadoop支持
JindoSDK内置支持访问阿里云OSS-HDFS服务(JindoFS服务),提供全面的HDFS接口访问和使用体验。
JindoShell CLI支持
提供Hadoop、HDFS Shell额外的命令扩展,为阿里云OSS-HDFS服务(JindoFS服务)提供面向Hadoop使用的操作方式。
支持您使用命令导入(UserGroupsMapping),设定用户组信息。
支持您使用命令设定Hadoop Proxy User规则。
JindoFuse POSIX支持
为阿里云OSS-HDFS服务(JindoFS服务)提供优化的Fuse客户端,受益于完全Native代码的开发实现,大幅提升了性能。
已知问题
JindoSDK暂不支持OSS上超大文件写入(大于80 GB)。
JindoSDK暂不支持OSS Append方式写入。
JindoSDK暂不支持OSS客户端加密。
JindoSDK暂不支持老版本JindoFS Block模式和Cache模式。
阿里云OSS-HDFS服务(JindoFS服务)暂不支持老版本JindoFS Block模式系统升级。需要您通过JindoDistCp迁移工具把数据从老系统迁移到新服务。