数据流动概述

更新时间:

文件存储CPFS与对象存储OSS之间已实现数据流动。您可以通过创建数据流动任务实现不同源端的数据同步。

背景信息

当CPFS Fileset与OSS Bucket创建数据流动后,CPFS文件系统会自动同步OSS Bucket中的对象元数据。同步完成后您能通过高性能且POSIX兼容的文件接口快速地处理OSS中的数据。同时,CPFS文件系统支持通过CPFS控制台或OpenAPI将数据导出至OSS Bucket。

  • 按需加载

    CPFS文件系统与OSS Bucket建立数据流动后,当您访问CPFS目录或文件时会按需从OSS上加载需要的元数据或数据。例如,执行ls命令列出与OSS Bucket链接的目录时,会按需从OSS加载目录项的元数据,在访问文件时会按需从OSS加载文件的数据块。

  • 数据的导入与导出

    您可以创建数据流动任务实现CPFS与OSS之间的数据导入和导出,以便在计算任务开始前将数据同步至高性能的CPFS文件系统上。CPFS支持目录树的整体导入和导出,也支持按照文件列表的导入和导出。用户任务结束后,可通过任务报告检查任务的执行情况。

    重要

    CPFS会将元数据导出到OSS Bucket的自定义元数据中,其命名为x-oss-meta-afm-xxx,不能删除或修改,否则文件系统中的元数据会错误。

  • 元数据自动更新

    配置当OSS的数据发生变化后,CPFS可通过OSS的数据修改事件监控到元数据变化,并自动将修改后的文件元数据同步到CPFS上。这样可确保CPFS与OSS上的数据保持最终一致,从而节省运维开销。

  • 弹性伸缩

    数据流动的规格支持升配和降配,您可以在业务高峰时升级数据流动带宽,在业务低谷时对数据流动带宽降配。

使用限制

  • Fileset

    • 仅CPFS 2.2.0及以上版本支持Fileset。

    • 单个CPFS文件系统最多支持创建10个Fileset。

    • Fileset可链接到CPFS文件系统内的目录的深度最大为8层。

    • Fileset内的文件或目录数量上限是100万个。

    • 不支持Fileset中嵌套Fileset。

  • 数据流动

    • 仅CPFS 2.2.0及以上版本支持数据流动。

    • 单个CPFS文件系统最多支持创建10个数据流动。

    • 单个数据流动最多可配置5个自动更新目录。

    • 单个CPFS文件系统的Fileset只能与一个OSS Bucket链接。

    • 数据流动任务的记录最长保留90天。

    • 数据流动任务报告保存在CPFS文件系统中,占用CPFS文件系统空间,最多可保存100万个。

    • CPFS文件系统不支持与其他区域的OSS Bucket创建数据流动。

  • 数据流动对文件系统的限制

    • 在数据流动关联的Fileset中,不可对非空目录执行重命名操作,否则报错Permission Denied或者目录非空。

    • 数据流动不支持对象存储OSS中的归档或者冷归档文件。

    • 目录、文件名中的特殊字符需要谨慎使用,支持大小写字母、数字、感叹号(!)、短划线(-)、下划线(_)、半角句号(.)、星号(*)和半角圆括号(())。

    • 不支持超长路径,数据流动支持的路径最大长度是1023字符。

  • 数据流动导出限制

    • 数据流动不支持导出Hard links类型数据和Symlinks类型数据至OSS Bucket。

    • 数据流动不支持将空目录导出到OSS Bucket。

    • 数据流动不支持将ChangeTime属性导出到OSS Bucket。

    • 数据流动导出稀疏数据时,0值会在填充后再导出到OSS Bucket。

使用流程

  1. 创建CPFS Fileset。具体操作,请参见创建Fileset

  2. 创建数据流动。具体操作,请参见创建数据流动

  3. 创建数据导入、数据导出或数据删除任务。具体操作,请参见创建数据流动任务

性能指标

操作类型

指标

说明

导入数据

GB级以上文件吞吐

  • 单文件导入吞吐200 MB/s。

  • 多文件导入吞吐可达配置带宽。

MB级文件OPS

单目录、多目录导入:1000。

导出数据

GB级以上文件吞吐

  • 单文件导出吞吐200 MB/s。

  • 多文件导出吞吐可达配置带宽。

MB级文件OPS

单目录、多目录导出:600。

删除数据

OPS

单目录、多目录删除:2000。

按需加载(Lazy-load)

GB级以上文件吞吐

  • 单文件导入吞吐200 MB/s。

  • 多文件导入吞吐可达配置带宽。

MB级文件OPS

单目录、多目录导入:1000。

元数据自动更新

OPS

  • 数据流动规格600 MB/s:2000。

  • 数据流动规格1200 MB/s:3000。

  • 数据流动规格1500 MB/s:4000。