文件存储CPFS与对象存储OSS之间已实现数据流动。您可以通过创建数据流动任务实现不同源端的数据同步。

背景信息

当CPFS Fileset与OSS Bucket创建数据流动后,CPFS文件系统会自动同步OSS Bucket中的对象元数据。同步完成后您能通过高性能且POSIX兼容的文件接口快速地处理OSS中的数据。同时,CPFS文件系统支持通过CPFS控制台或OpenAPI将数据导出至OSS Bucket。
  • 按需加载

    CPFS文件系统与OSS Bucket建立数据流动后,当您访问CPFS目录或文件时会按需从OSS上加载需要的元数据或数据。例如,执行ls命令列出与OSS Bucket链接的目录时,会按需从OSS加载目录项的元数据,在访问文件时会按需从OSS加载文件的数据块。

  • 数据的导入与导出

    您可以创建数据流动任务实现CPFS与OSS之间的数据导入和导出,以便在计算任务开始前将数据同步至高性能的CPFS文件系统上。CPFS支持目录树的整体导入和导出,也支持按照文件列表的导入和导出。用户任务结束后,可通过任务报告检查任务的执行情况。

    注意 CPFS会将元数据导出到OSS Bucket的自定义元数据中,其命名为x-oss-meta-afm-xxx,不能删除或修改,否则文件系统中的元数据会错误。
  • 元数据自动更新

    配置当OSS的数据发生变化后,CPFS可通过OSS的数据修改事件监控到元数据变化,并自动将修改后的文件元数据同步到CPFS上。这样可确保CPFS与OSS上的数据保持最终一致,从而节省运维开销。

  • 弹性伸缩

    数据流动的规格支持升配和降配,您可以在业务高峰时升级数据流动带宽,在业务低谷时对数据流动带宽降配。

使用限制

  • Fileset
    • 仅CPFS 2.2.0及以上版本支持Fileset。
    • 单个CPFS文件系统最多支持创建10个Fileset。
    • Fileset可链接到CPFS文件系统内的目录的深度最大为8层。
    • Fileset内的文件或目录数量上限是100万个,如果您的业务场景需要提高文件数量额度,请提交工单申请。
    • 不支持Fileset中嵌套Fileset。
  • 数据流动
    • 仅CPFS 2.2.0及以上版本支持数据流动。
    • 单个CPFS文件系统最多支持创建10个数据流动。
    • 单个数据流动最多可配置5个自动更新目录。
    • 单个CPFS文件系统的Fileset只能与一个OSS Bucket链接。
    • 数据流动任务的记录最长保留90天。
    • 数据流动任务报告保存在CPFS文件系统中,占用CPFS文件系统空间,最多可保存100万个。
    • CPFS文件系统不支持与其他区域的OSS Bucket创建数据流动。
    • 在数据流动关联的Fileset中,不可对非空目录执行重命名操作。
  • 数据流动任务
    • 数据流动不支持导出Hard links类型数据和Symlinks类型数据至OSS Bucket。
    • 数据流动不支持将空目录导出到OSS Bucket。
    • 数据流动不支持将ChangeTime属性导出到OSS Bucket。

使用流程

  1. 创建CPFS Fileset。具体操作,请参见创建Fileset
  2. 创建数据流动。具体操作,请参见创建数据流动
  3. 创建数据导入、数据导出或数据删除任务。具体操作,请参见创建数据流动任务

性能指标

操作类型 指标 说明
导入数据 GB级以上文件吞吐
  • 单文件导入吞吐200 MB/s。
  • 多文件导入吞吐可达配置带宽。
MB级文件OPS 单目录、多目录导入:1000。
导出数据 GB级以上文件吞吐
  • 单文件导出吞吐200 MB/s。
  • 多文件导出吞吐可达配置带宽。
MB文件OPS 单目录、多目录导出:600。
删除数据 OPS 单目录、多目录删除:2000。
按需加载(Lazy-load) GB级以上文件吞吐
  • 单文件导入吞吐200 MB/s。
  • 多文件导入吞吐可达配置带宽。
MB文件OPS 单目录、多目录导入:1000。
元数据自动更新 OPS
  • 数据流动规格600 MB/s:2000。
  • 数据流动规格1200 MB/s:3000。
  • 数据流动规格1500 MB/s:4000。