管理数据流动任务
本文介绍如何在文件存储控制台创建、管理CPFS智算版文件系统的数据流动任务及查看任务失败原因。
背景信息
通过控制台创建的数据流动任务为批式任务,仅能一次性导入或导出一个目录中的所有文件至另一个目录,无法实现单文件粒度的持续性流动。如果您需要实现单文件粒度的持续性流动,则需通过流式任务的OpenAPI进行操作。具体操作,请参见数据流动流式任务最佳实践。
前提条件
创建数据流动任务
登录文件存储控制台。
在左侧导航栏,选择文件系统>文件系统列表。
在顶部菜单栏,选择地域。
在文件系统列表页面,单击目标CPFS智算版文件系统名称。
在文件系统详情页面,单击数据流动。
在数据流动页面,找到目标数据流动,单击任务管理。
在任务管理面板,单击创建任务。
在创建任务面板,您可以创建不同类型的任务并配置任务详情。
导入数据
Symlink类型的文件导入到CPFS后,会转变为包含数据的普通文件,并丢失Symlink信息。
如果OSS Bucket存在多个版本,则只复制最新的版本。
不支持长度大于255字节的文件名或子目录名。
当文件名和文件子目录发生冲突时,在CPFS文件系统中会出现对象冲突的情况,只能确保其中一个操作成功,而另一个则会失败。
配置项
说明
导入数据类型
支持数据+元数据类型。表示同时导入文件的数据块及元数据。
导入文件
选择数据流动任务执行的目录或文件列表。
导入OSS此目录下所有文件:指定OSS目录必须以正斜线(/)开头和结尾。
说明如果创建数据流动时配置的CPFS路径不存在,您可以选中如果您当前创建的CPFS目录不存在,系统将为您自动创建,以防导入数据失败。
冲突策略
当CPFS智算版文件系统与OSS Bucket存在同名文件时的处理策略。
跳过同名文件(缺省):忽略同名文件不进行同步。
保持最新:同名文件比较更新时间(即mtime),保持更新的版本。OSS采用修改时间,CPFS采用修改时间。
覆盖同名文件:将同名文件覆盖为OSS端版本。选中将当前源端文件覆盖目标端已存在的同名文件,请确保您已备份重要数据。
导出数据
源端OSS Bucket已开启版本控制。在数据流动的使用过程中,不能暂停版本控制,否则执行导出任务时会报错。更多信息,请参见版本控制介绍。
Symlink类型的文件在同步到OSS后,不会同步Symlink所指向的文件,而是会变成一个普通的无数据空白对象。
Hardlink类型的文件仅作为普通文件同步到OSS。
不支持Socket、Device、Pipe类型的文件导出到OSS Bucket。
不支持长度大于1023字符的目录路径。
CPFS智算版会将File Modification timestamps属性导出到OSS Bucket的自定义元数据中,其命名为
x-oss-meta-alihbr-sync-mtime
,不能删除或修改,否则文件系统中的File Modification timestamps属性会错误。
配置项
说明
导出数据类型
支持数据+元数据类型。表示同时导出文件的数据块及元数据。
导出文件
选择数据流动任务执行的目录或者文件列表。
导出CPFS此目录下所有文件:目录必须以正斜线(/)开头和结尾,且是该目录在CPFS智算版文件系统中的路径。
冲突策略
当CPFS智算版文件系统与OSS Bucket存在同名文件时的处理策略。
跳过同名文件(缺省):忽略同名文件不进行同步。
保持最新:同名文件比较更新时间(即mtime),保持更新的版本。OSS采用修改时间,CPFS采用修改时间。
覆盖同名文件:将同名文件覆盖为CPFS端版本。选中将当前源端文件覆盖目标端已存在的同名文件,请确保您已备份重要数据。
单击确定。
查看任务失败原因
当数据流动任务运行失败后,您可以在控制台上查看失败原因。
登录NAS控制台。
在左侧导航栏,选择文件系统>文件系统列表。
在顶部菜单栏,选择地域。
在文件系统列表页面,单击目标文件系统名称。
在文件系统详情页面,单击数据流动。
在数据流动页签,找到目标数据流动,单击任务管理。
在任务管理面板,找到目标任务,并将光标放置失败右侧的气泡上,查看失败原因。
相关操作
操作 | 说明 | 步骤 |
查看任务 | 您可以通过控制台查看数据流动任务的配置及运行状态。 |
|
取消任务 | 您可以在控制台取消运行中的数据流动任务。 |
|
复制任务 | 您可以通过复制任务重复执行之前已经执行过的任务。 |
|
查看成功文件报告 | 当数据流动任务运行结束后,系统将生成一份成功文件报告,您可以在控制台下载该报告并查看成功文件的详细信息。 |
|