文档

管理数据流动任务

更新时间:
一键部署
重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

本文介绍如何在文件存储控制台创建、管理CPFS智算版文件系统的数据流动任务及查看任务报告。

前提条件

已创建数据流动。具体操作,请参见创建数据流动

任务说明

数据流动任务可分为导入(Import)和导出(Export)两种类型。

类型

说明

导入(Import)

将源端存储的数据导入CPFS智算版文件系统。

  • 导入类型:支持导入文件的数据(MetaAndData)。

  • 导入路径:是文件OSS Bucket中的路径。数据流动任务按文件在OSS Bucket中的路径导入到CPFS智算版文件系统中。

导出(Export)

将位于数据流动CPFS智算版文件系统内指定的目录或文件导出到OSS Bucket中。

导出路径:文件或目录在CPFS智算版文件系统中的路径。数据流动任务按文件在文件系统中的路径导出到Bucket中。

警告

CPFS智算版会将File Modification timestamps属性导出到OSS Bucket的自定义元数据中,其命名为x-oss-meta-hbr-buckup-mtime,不能删除或修改,否则文件系统中的File Modification timestamps属性会错误。

创建数据流动任务

  1. 登录文件存储控制台

  2. 在左侧导航栏,选择文件系统>文件系统列表

  3. 在顶部菜单栏,选择地域。

  4. 文件系统列表页面,单击目标CPFS智算版文件系统名称。

  5. 在文件系统详情页面,单击数据流动

  6. 数据流动页面,找到目标数据流动,单击任务管理

  7. 任务管理面板,单击创建任务

  8. 创建任务面板,您可以创建不同类型的任务并配置任务详情。

    导入数据

    • Symlink类型的文件导入到CPFS后,会转变为包含数据的普通文件,并丢失Symlink信息。

    • 如果OSS Bucket存在多个版本,则只复制最新的版本。

    • 不支持长度大于255字节的文件名或子目录名。

    • 当文件名和文件子目录发生冲突时,在CPFS文件系统中会出现对象冲突的情况,只能确保其中一个操作成功,而另一个则会失败。

    配置项

    说明

    导入数据类型

    支持数据+元数据类型。表示同时导入文件的数据块及元数据。

    导入文件

    选择数据流动任务执行的目录或文件列表。

    导入OSS此目录下所有文件:指定OSS目录必须以正斜线(/)开头和结尾。

    冲突策略

    当CPFS智算版文件系统与OSS Bucket存在同名文件时的处理策略。

    • 保持最新:同名文件比较更新时间,保持更新的版本。OSS采用修改时间,CPFS采用修改时间。

    • 跳过同名文件:忽略同名文件不进行同步。

    • 覆盖同名文件:将同名文件覆盖为CPFS端版本。

    导出数据

    • Symlink类型的文件在同步到OSS后,不会同步Symlink所指向的文件,而是会变成一个普通的无数据空白对象。

    • Hardlink类型的文件仅作为普通文件同步到OSS。

    • 不支持Socket、Device、Pipe类型的文件导出到OSS Bucket。

    • 不支持长度大于1023字符的目录路径。

    配置项

    说明

    导出文件

    选择数据流动任务执行的目录或者文件列表。

    导出CPFS此目录下所有文件:目录必须以正斜线(/)开头和结尾,且是该目录在CPFS智算版文件系统中的路径。

    冲突策略

    当CPFS智算版文件系统与OSS Bucket存在同名文件时的处理策略。

    • 保持最新:同名文件比较更新时间(即mtime),保持更新的版本。

    • 跳过同名文件:忽略同名文件不进行同步。

    • 覆盖同名文件:将同名文件覆盖为CPFS端版本。

  9. 单击确定

查看任务报告

当数据流动任务运行失败后,系统将生成一份失败任务报告,您可以在控制台上下载该报告并排查失败原因。

  1. 登录NAS控制台

  2. 在左侧导航栏,选择文件系统>文件系统列表

  3. 在顶部菜单栏,选择地域。

  4. 文件系统列表页面,单击目标文件系统名称。

  5. 在文件系统详情页面,单击数据流动

  6. 数据流动页签,找到目标数据流动,单击任务管理

  7. 任务管理面板,在需要查看任务报告的操作列,选择更多图标 > 报告

  8. 获取目标任务报告的详细路径并下载。

    说明

    若未显示报告或无法根据报告排查失败原因,请联系CPFS技术支持进行咨询。点击加入技术支持群(建议使用Chrome打开)或搜索公开群组并加入,钉钉群号:26570026011。

  9. 打开下载的文件,并在表格的reason列查看失败原因。

相关操作

操作

说明

步骤

查看任务

您可以通过控制台查看数据流动任务的配置及运行状态。

  1. 数据流动页签,单击创建数据流动

  2. 任务管理面板,查看目标任务详情。

取消任务

您可以在控制台取消运行中的数据流动任务。

  1. 数据流动页签,单击创建数据流动

  2. 任务管理面板,找到目标任务,单击取消

  3. 确认待取消的任务,单击确定

复制任务

您可以通过复制任务重复执行之前已经执行过的任务。

  1. 数据流动页签,单击创建数据流动

  2. 任务管理面板,找到目标任务,选择

  3. 确认待复制的任务,单击确定

  • 本页导读 (1)
文档反馈