数据流动概述
文件存储CPFS与对象存储OSS之间已实现数据流动。您可以通过创建数据流动任务实现不同源端的数据同步。
背景信息
当CPFS Fileset与OSS Bucket创建数据流动后,CPFS文件系统会自动同步OSS Bucket中的对象元数据。同步完成后您能通过高性能且POSIX兼容的文件接口快速地处理OSS中的数据。同时,CPFS文件系统支持通过CPFS控制台或OpenAPI将数据导出至OSS Bucket。
按需加载
CPFS文件系统与OSS Bucket建立数据流动后,当您访问CPFS目录或文件时会按需从OSS上加载需要的元数据或数据。例如,执行ls命令列出与OSS Bucket链接的目录时,会按需从OSS加载目录项的元数据,在访问文件时会按需从OSS加载文件的数据块。
数据的导入与导出
您可以创建数据流动任务实现CPFS与OSS之间的数据导入和导出,以便在计算任务开始前将数据同步至高性能的CPFS文件系统上。CPFS支持目录树的整体导入和导出,也支持按照文件列表的导入和导出。用户任务结束后,可通过任务报告检查任务的执行情况。
重要CPFS会将元数据导出到OSS Bucket的自定义元数据中,其命名为
x-oss-meta-afm-xxx
,不能删除或修改,否则文件系统中的元数据会错误。元数据自动更新
配置当OSS的数据发生变化后,CPFS可通过OSS的数据修改事件监控到元数据变化,并自动将修改后的文件元数据同步到CPFS上。这样可确保CPFS与OSS上的数据保持最终一致,从而节省运维开销。
弹性伸缩
数据流动的规格支持升配和降配,您可以在业务高峰时升级数据流动带宽,在业务低谷时对数据流动带宽降配。
使用限制
Fileset
仅CPFS 2.2.0及以上版本支持Fileset。
单个CPFS文件系统最多支持创建10个Fileset。
Fileset可链接到CPFS文件系统内的目录的深度最大为8层。
Fileset内的文件或目录数量上限是100万个。
不支持Fileset中嵌套Fileset。
数据流动
仅CPFS 2.2.0及以上版本支持数据流动。
单个CPFS文件系统最多支持创建10个数据流动。
单个数据流动最多可配置5个自动更新目录。
单个CPFS文件系统的Fileset只能与一个OSS Bucket链接。
数据流动任务的记录最长保留90天。
数据流动任务报告保存在CPFS文件系统中,占用CPFS文件系统空间,最多可保存100万个。
CPFS文件系统不支持与其他区域的OSS Bucket创建数据流动。
数据流动对文件系统的限制
在数据流动关联的Fileset中,不可对非空目录执行重命名操作,否则报错
Permission Denied
或者目录非空。数据流动不支持对象存储OSS中的归档或者冷归档文件。
目录、文件名中的特殊字符需要谨慎使用,支持大小写字母、数字、感叹号(!)、短划线(-)、下划线(_)、半角句号(.)、星号(*)和半角圆括号(())。
不支持超长路径,数据流动支持的路径最大长度是1023字符。
数据流动导出限制
数据流动不支持导出Hard links类型数据和Symlinks类型数据至OSS Bucket。
数据流动不支持将空目录导出到OSS Bucket。
数据流动不支持将ChangeTime属性导出到OSS Bucket。
数据流动导出稀疏数据时,0值会在填充后再导出到OSS Bucket。
使用流程
性能指标
操作类型 | 指标 | 说明 |
导入数据 | GB级以上文件吞吐 |
|
MB级文件OPS | 单目录、多目录导入:1000。 | |
导出数据 | GB级以上文件吞吐 |
|
MB级文件OPS | 单目录、多目录导出:600。 | |
删除数据 | OPS | 单目录、多目录删除:2000。 |
按需加载(Lazy-load) | GB级以上文件吞吐 |
|
MB级文件OPS | 单目录、多目录导入:1000。 | |
元数据自动更新 | OPS |
|