缓存加速

更新时间:

EFC弹性文件客户端(Elastic File Client)是阿里云文件存储团队开发的基于FUSE的用户态POSIX客户端。它利用计算节点的本地内存与磁盘构建高速分布式读缓存架构,加速数据集加载和模型分发,显著提升模型训练和推理效率。

功能说明

  • 发布状态:EFC 缓存功能当前为邀测发布阶段。

  • 费用说明:邀测期间,该功能免费使用。

  • 数据可靠性:缓存能力不保障数据高可用性。缓存数据在特定情况(如机器损坏、节点替换下线等)下可能丢失。请务必及时备份您的重要训练数据,不要将缓存作为唯一的数据存储。

应用场景

推理场景

模型加载中,模型文件需要快速加载到每一台 GPU 服务器,客户期望模型加载的时间控制在 1 分钟以内。GPU 数量越多,对存储系统性能的要求也就越高。利用 GPU 本地盘/内存的分布式缓存能力可以实现将存储系统本身的性能与模型加载速度解耦,从而实现模型快速加载。

训练场景

训练场景中,训练数据会被重复读,计算侧缓存使得训练过程中读性能更好,能大大提高训练过程中 GPU 的使用率,提高训练的整体速度。

技术优势

  • 计算侧高速缓存

    EFC 利用计算节点内存与本地盘构建单机和分布式缓存,为数据集和Checkpoint读写提供加速能力,有效降低从远程访问存储的延迟。

  • P2P模型分发

    EFC 通过 P2P 能力支持大规模模型的高并发加载与分发,利用 GPU 节点间的高速网络实现热点数据的并行读取加速。其聚合吞吐可随计算节点规模呈线性扩展,支持在数百至数千个节点规模。P2P工作原理如下图所示。

    image
  • 全链路硬件加速

    支持RDMA 网络、 VSC 软硬一体通路,结合多链接负载均衡能力,自动将请求分发至多个后端服务器,保障高并发下的低延时与高吞吐。

  • POSIX兼容和云原生集成

    面向容器设计,完全兼容POSIX文件接口,提供容器级别隔离、QoS能力和面向应用的权限访问控制。

使用限制

适用平台

  • 人工智能平台PAI(灵骏智算资源)

  • 灵骏裸金属

存储支持

支持对象存储OSS 、文件存储NAS、文件存储CPFS智算版。

操作系统要求

操作系统类型

发行版

内核版本

Alibaba Cloud Linux

Alibaba Cloud Linux 3

5.10.134-13 以上

Ubuntu

Ubuntu 24.04

6.8.0-79 以上

如何开通和使用

  • 人工智能平台PAI(灵骏智算资源)

    EFC缓存利用人工智能平台PAI灵骏智算资源的本地盘构建分布式读缓存,通过减少对远程存储的依赖来加速数据读取,从而提高应用性能。在PAI平台开通和使用EFC的详细步骤,请参见文档:PAI平台使用EFC缓存加速

  • 灵骏裸金属

    在灵骏裸金属场景,暂未提供商业化控制台的开通流程。如需试用,请提交工单联系我们进行咨询和开通。