数据流动任务
CPFS智算版提供批式任务和流式任务两种任务类型,您可以根据业务场景选择适合的任务类型。
批式任务
批式任务是将一个目录的所有文件一次性导入到另一个目录。适用于智算训练前数据集的预加载。
流式任务
流式任务是一个目录到另一个目录的单个文件粒度的持续流动。适用于计算任务训练中模型多个Checkpoint文件持续性的写回与加载场景。
仅CPFS智算版2.6.0及以上版本支持流式任务。
仅支持通过OpenAPI使用流式任务。具体操作,请参见数据流动流式任务最佳实践。
任务说明
按任务对数据的操作,可分为导入(Import)、导出(Export)、流式导入(StreamImport)、流式导出(StreamExport)四种类型。
类型 | 说明 |
导入(Import) | 将源端存储的数据一次性导入CPFS智算版文件系统。
|
导出(Export) | 将CPFS智算版文件系统内指定的数据一次性导出到OSS Bucket中。 导出路径:文件或目录在CPFS智算版文件系统中的路径。数据流动任务按文件在文件系统中的路径导出到Bucket中。 警告
|
流式导入(StreamImport) | 将源端存储指定的数据按单个文件粒度的子任务形式导入到CPFS智算版文件系统。仅支持通过OpenAPI进行操作。
|
流式导出(StreamExport) | 将CPFS智算版文件系统内指定的数据按单个文件粒度的子任务形式导出到OSS Bucket中。仅支持通过OpenAPI进行操作。 导出路径:文件或目录在CPFS智算版文件系统中的路径。数据流动任务按文件在文件系统中的路径导出到Bucket中。 |