数据流动任务

更新时间: 2024-12-09 17:21:03

CPFS智算版提供批式任务和流式任务两种任务类型,您可以根据业务场景选择适合的任务类型。

批式任务

批式任务是将一个目录的所有文件一次性导入到另一个目录。适用于智算训练前数据集的预加载。

流式任务

流式任务是一个目录到另一个目录的单个文件粒度的持续流动。适用于计算任务训练中模型多个Checkpoint文件持续性的写回与加载场景。

说明

任务说明

按任务对数据的操作,可分为导入(Import)、导出(Export)、流式导入(StreamImport)、流式导出(StreamExport)四种类型。

类型

说明

导入(Import)

将源端存储的数据一次性导入CPFS智算版文件系统。

  • 导入类型:支持导入文件的数据(MetaAndData)。

  • 导入路径:是文件OSS Bucket中的路径。数据流动任务按文件在OSS Bucket中的路径导入到CPFS智算版文件系统中。

导出(Export)

将CPFS智算版文件系统内指定的数据一次性导出到OSS Bucket中。

导出路径:文件或目录在CPFS智算版文件系统中的路径。数据流动任务按文件在文件系统中的路径导出到Bucket中。

警告
  • CPFS智算版会将File Modification timestamps属性导出到OSS Bucket的自定义元数据中,其命名为x-oss-meta-alihbr-sync-mtime,不能删除或修改,否则文件系统中的File Modification timestamps属性会错误。

  • 在数据流动的使用过程中,不能暂停源端OSS Bucket的版本控制,否则执行导出任务时会报错。更多信息,请参见版本控制

流式导入(StreamImport)

将源端存储指定的数据按单个文件粒度的子任务形式导入到CPFS智算版文件系统。仅支持通过OpenAPI进行操作。

  • 导入类型:支持导入文件的数据(MetaAndData)。

  • 导入路径:是文件OSS Bucket中的路径。数据流动任务按文件在OSS Bucket中的路径导入到CPFS智算版文件系统中。

流式导出(StreamExport)

将CPFS智算版文件系统内指定的数据按单个文件粒度的子任务形式导出到OSS Bucket中。仅支持通过OpenAPI进行操作。

导出路径:文件或目录在CPFS智算版文件系统中的路径。数据流动任务按文件在文件系统中的路径导出到Bucket中。

上一篇: 管理数据流动 下一篇: 管理数据流动任务