文档

管理数据流动任务

更新时间:
一键部署

本文介绍如何在文件存储控制台创建、管理CPFS智算版文件系统的数据流动任务及查看任务失败原因。

背景信息

通过控制台创建的数据流动任务为批式任务,仅能一次性导入或导出一个目录中的所有文件至另一个目录,无法实现单文件粒度的持续性流动。如果您需要实现单文件粒度的持续性流动,则需通过流式任务的OpenAPI进行操作。具体操作,请参见数据流动流式任务最佳实践

前提条件

  • 已创建数据流动。具体操作,请参见创建同账号数据流动

  • 如果是创建数据导出任务,则需要源端OSS Bucket已开启版本控制。在数据流动的使用过程中,不能暂停版本控制,否则执行导出任务时会报错。更多信息,请参见版本控制介绍

创建数据流动任务

  1. 登录文件存储控制台

  2. 在左侧导航栏,选择文件系统>文件系统列表

  3. 在顶部菜单栏,选择地域。

  4. 文件系统列表页面,单击目标CPFS智算版文件系统名称。

  5. 在文件系统详情页面,单击数据流动

  6. 数据流动页面,找到目标数据流动,单击任务管理

  7. 任务管理面板,单击创建任务

  8. 创建任务面板,您可以创建不同类型的任务并配置任务详情。

    导入数据

    • Symlink类型的文件导入到CPFS后,会转变为包含数据的普通文件,并丢失Symlink信息。

    • 如果OSS Bucket存在多个版本,则只复制最新的版本。

    • 不支持长度大于255字节的文件名或子目录名。

    • 当文件名和文件子目录发生冲突时,在CPFS文件系统中会出现对象冲突的情况,只能确保其中一个操作成功,而另一个则会失败。

    配置项

    说明

    导入数据类型

    支持数据+元数据类型。表示同时导入文件的数据块及元数据。

    导入文件

    选择数据流动任务执行的目录或文件列表。

    导入OSS此目录下所有文件:指定OSS目录必须以正斜线(/)开头和结尾。

    说明

    如果创建数据流动时配置的CPFS路径不存在,您可以选中如果您当前创建的CPFS目录不存在,系统将为您自动创建,以防导入数据失败。

    冲突策略

    当CPFS智算版文件系统与OSS Bucket存在同名文件时的处理策略。

    • 跳过同名文件(缺省):忽略同名文件不进行同步。

    • 保持最新:同名文件比较更新时间(即mtime),保持更新的版本。OSS采用修改时间,CPFS采用修改时间。

    • 覆盖同名文件:将同名文件覆盖为OSS端版本。选中将当前源端文件覆盖目标端已存在的同名文件,请确保您已备份重要数据。

    导出数据

    • 源端OSS Bucket已开启版本控制。在数据流动的使用过程中,不能暂停版本控制,否则执行导出任务时会报错。更多信息,请参见版本控制介绍

    • Symlink类型的文件在同步到OSS后,不会同步Symlink所指向的文件,而是会变成一个普通的无数据空白对象。

    • Hardlink类型的文件仅作为普通文件同步到OSS。

    • 不支持Socket、Device、Pipe类型的文件导出到OSS Bucket。

    • 不支持长度大于1023字符的目录路径。

    • CPFS智算版会将File Modification timestamps属性导出到OSS Bucket的自定义元数据中,其命名为x-oss-meta-alihbr-sync-mtime,不能删除或修改,否则文件系统中的File Modification timestamps属性会错误。

    配置项

    说明

    导出数据类型

    支持数据+元数据类型。表示同时导出文件的数据块及元数据。

    导出文件

    选择数据流动任务执行的目录或者文件列表。

    导出CPFS此目录下所有文件:目录必须以正斜线(/)开头和结尾,且是该目录在CPFS智算版文件系统中的路径。

    冲突策略

    当CPFS智算版文件系统与OSS Bucket存在同名文件时的处理策略。

    • 跳过同名文件(缺省):忽略同名文件不进行同步。

    • 保持最新:同名文件比较更新时间(即mtime),保持更新的版本。OSS采用修改时间,CPFS采用修改时间。

    • 覆盖同名文件:将同名文件覆盖为CPFS端版本。选中将当前源端文件覆盖目标端已存在的同名文件,请确保您已备份重要数据。

  9. 单击确定

查看任务失败原因

当数据流动任务运行失败后,您可以在控制台上查看失败原因。

  1. 登录NAS控制台

  2. 在左侧导航栏,选择文件系统>文件系统列表

  3. 在顶部菜单栏,选择地域。

  4. 文件系统列表页面,单击目标文件系统名称。

  5. 在文件系统详情页面,单击数据流动

  6. 数据流动页签,找到目标数据流动,单击任务管理

  7. 任务管理面板,找到目标任务,并将光标放置失败右侧的气泡上,查看失败原因。

    image

相关操作

操作

说明

步骤

查看任务

您可以通过控制台查看数据流动任务的配置及运行状态。

  1. 数据流动页签,单击创建数据流动

  2. 任务管理面板,查看目标任务详情。

取消任务

您可以在控制台取消运行中的数据流动任务。

  1. 数据流动页签,单击创建数据流动

  2. 任务管理面板,找到目标任务,单击取消

  3. 确认待取消的任务,单击确定

复制任务

您可以通过复制任务重复执行之前已经执行过的任务。

  1. 数据流动页签,单击创建数据流动

  2. 任务管理面板,找到目标任务,选择image图标 > 复制

  3. 确认待复制的任务,单击确定

查看成功文件报告

当数据流动任务运行结束后,系统将生成一份成功文件报告,您可以在控制台下载该报告并查看成功文件的详细信息。

  1. 数据流动页签,单击创建数据流动

  2. 任务管理面板,找到目标任务,单击下载任务报告

  3. 确认待下载的报告,单击image