灵骏智算本地缓存加速

AI 训练通常需要重复读取海量数据,这会产生巨大的网络开销,影响训练效率。在灵骏智算场景下,PAI提供了本地缓存加速功能,通过将数据缓存至本地计算节点,减少网络开销,提高训练吞吐,大幅提升数据读取性能,为您的 AI 训练任务提速。

技术优势

  • 高速缓存:利用计算节点的内存与本地盘构建单机和分布式读缓存,加速数据集与 Checkpoint 访问,显著减少数据访问延迟。

  • 水平扩展:缓存吞吐能力随计算节点规模线性扩展,支持数百至数千个节点规模。

  • P2P 模型分发:通过 P2P支持大规模模型的高并发加载与分发,利用 GPU 节点间的高速网络实现热点数据的并行读取加速。

  • Serverless 简单易用:一键开启和关闭,无需修改代码,对程序无侵入,无需关注运维。

限制与说明

  • 存储支持:支持 OSS 、智算 CPFS。

  • 适用资源:目前仅支持灵骏智算资源。

  • 容量与策略:最大缓存容量和灵骏智算规格相关,淘汰策略采用 LRU(最近最少使用)。

  • 加速目标:核心目标是提升数据读取性能,不支持写。

  • 数据高可用性:不保证数据高可用。本地缓存数据可能存在丢失情况,重要训练数据请及时备份。

  • 工作机制:在多轮训练时,第一轮需要从存储实例(例如: OSS、 智算CPFS)读取数据,性能与直读存储实例一致。但在后续多轮训练中,将从本地缓存中读取数据,可以提升读取速度。

使用方法

  1. 开启资源配额(Quota)本地缓存。在左侧导航栏单击资源配额(Quota)> 灵骏智算资源,找到并单击目标Quota名称进入管理页面。开启本地缓存,并设置需要缓存的存储路径。

    如果是多级嵌套的资源配额,需保证第一级资源配额(Quota)已开启本地缓存。

    image

  2. 使用目标资源配额的灵骏资源创建DLC任务,并开启使用缓存。当挂载的存储地址命中步骤1中填写的缓存地址时,默认加速(用户可选择关闭)。

    image