管理数据流动任务

更新时间: 2024-10-23 13:54:02

本文介绍如何在文件存储控制台创建、管理CPFS数据流动任务及查看任务报告。

前提条件

任务说明

  • 任务类型

    • 按任务对数据的操作,可分为导入(Import)、导出(Export)和删除(Evict)三种类型。

      类型

      说明

      导入(Import)

      将源端存储的数据导入CPFS文件系统。

      • 导入类型:支持导入元数据(Metadata)和数据(MetaAndData)两种数据类型。

        • 元数据:只导入文件的元数据。

        • 数据:导入文件的元数据和数据。

      • 导入路径:是文件OSS Bucket中的路径。数据流动任务按文件在OSS Bucket中的路径导入到Fileset中。

      • 如果导入文件或导入目录无POSIX元数据属性,则默认owner为root,默认permission为0770。

      导出(Export)

      将位于数据流动Fileset内的指定的目录或文件导出到OSS Bucket中。

      • 导出路径:文件或目录在CPFS文件系统中的路径。数据流动任务按文件在Fileset中的路径导出到Bucket中。

      • 空目录、hard link和symbol link不能导出到OSS。

      • 元数据导出:支持将文件的CreateTime、ModifyTime、Ownership、Permission导出到OSS Bucket,但文件的ChangeTime不会导出到OSS。

        警告

        CPFS会将元数据导出到OSS Bucket的自定义元数据中,其命名为x-oss-meta-afm-xxx,不能删除或修改,否则文件系统中的元数据会错误。

      删除(Evict)

      将释放CPFS上文件的数据,删除后文件在CPFS上只保留元数据,您仍能看到该文件,但文件的数据块已清除,不占用CPFS上的存储空间,访问该文件数据时,再从源端存储(例如OSS)按需加载。

      说明

      删除前,请务必确认对应文件在OSS上有最新的版本。

    • 按任务的发起者,分为用户任务和系统任务两种类型。

      类型

      描述

      用户任务

      通过控制台或者OpenAPI创建的数据流动任务(CreateDataFlowTask)。

      • 可在控制台的数据流动 > 任务管理面板中查询。

      • 用户任务运行结束时会生成任务报告,保存在CPFS文件系统的.dataflow_report目录中。

      系统任务

      在配置元数据自动更新后,CPFS自动生成的任务,用于将OSS Bucket中更新的文件元数据同步到CPFS。

      • 系统任务每隔自动更新间隔(分钟)时间会自动生成,以同步OSS Bucket中更新的文件元数据。

      • 可在控制台的数据流动 > 任务管理面板中查询。

      • 系统任务不会生成任务报告。

  • 任务执行范围

    任务执行的范围为目录(Directory)或指定的文件列表(EntryList)。当执行范围为目录时,任务会遍历该目录树中的所有文件。

创建数据流动任务

  1. 登录NAS控制台

  2. 在左侧导航栏,选择文件系统>文件系统列表

  3. 在顶部菜单栏,选择地域。

  4. 文件系统列表页面,单击目标文件系统名称。

  5. 在文件系统详情页面,单击数据流动

  6. 数据流动页签,找到目标数据流动,单击任务管理

  7. 任务管理面板,单击创建任务

  8. 创建任务面板,您可以创建不同类型的任务并配置任务详情。

    导入数据

    配置项

    说明

    导入数据类型

    选择导入数据的类型。

    • 数据:同时导入文件的数据块及元数据。

    • 元数据:仅导入文件的元数据。

      当仅导入文件的元数据时,您只能查询到文件名,访问该数据时,将会从源端按需加载。

    导入文件

    选择数据流动任务执行的目录或者文件列表。

    • 导入OSS此目录下所有文件:指定OSS目录必须以/开头和结尾。

    • 导入此文件中列出的所有对象:文件中每一行代表该文件在OSS Bucket中的路径,不支持目录。

    导出数据

    • 空目录、hard link、symbol link不能导出到OSS Bucket。

    • 支持将文件的CreateTime、ModifyTime、Ownership、Permission导出到OSS Bucket,但文件的ChangeTime不会导出到OSS Bucket。

    • CPFS将元数据导出到OSS Bucket的自定义元数据中,名称为x-oss-meta-afm-xxx,用户不能删除或修改,否则文件系统中的元数据会错误。

      配置项

      说明

      导出文件

      选择数据流动任务执行的目录或者文件列表。

      • 导出CPFS此目录下所有文件:目录必须以正斜线(/)开头和结尾,且是该目录在CPFS文件系统中的路径。

      • 导出此文件列出的所有文件:文件中每一行代表一个文件在CPFS文件系统中的路径,不支持目录。

    删除数据

    配置项

    说明

    删除文件

    选择数据流动任务执行的目录或者文件列表。

    • 删除CPFS此目录下所有文件:目录必须以正斜线(/)开头和结尾。

    • 删除此文件列出的所有文件:文件中每一行代表一个文件在CPFS文件系统中的路径,不支持目录。

  9. 确认配置信息,单击确定

    说明

    执行指定的数据流动任务时,该数据流动的自动数据更新任务会被中断并等待。

查看任务报告

  1. 登录NAS控制台

  2. 在左侧导航栏,选择文件系统>文件系统列表

  3. 在顶部菜单栏,选择地域。

  4. 文件系统列表页面,单击目标文件系统名称。

  5. 在文件系统详情页面,单击数据流动

  6. 数据流动页签,找到目标数据流动,单击任务管理

  7. 任务管理面板,在需要查看任务报告的操作列,选择更多图标 > 报告

  8. 获取目标任务报告的详细路径并下载。

    说明
    • 任务报告仅生成用户任务报告,系统任务不生成任务报告。

    • 请您在用户任务结束后再查看任务报告,报告会保存在CPFS文件系统的.dataflow_report目录中。

    任务报告示例:

    SUMMARY,dataflowId,taskId,userId,fsId,startDate,endData,total,succ,skip,failed,throughput_MBps
    FILE,path,status,size
    
    SUMMARY,df-0001,task-0001,1001,cpfs-1234,1632477577,1632477677,18,10,1,7,0.01
    FILE,test1/object1,cached,131072
    FILE,test1/object2,cached,131072

    类别

    字段

    说明

    任务统计信息(SUMMARY)

    dataflowId

    数据流动ID。

    taskId

    任务ID。

    userId

    用户ID。

    fsId

    文件系统ID。

    startDate

    任务启动时间(number of sec since Epoch)。

    endDate

    任务结束时间(number of sec since Epoch)。

    total

    任务操作的文件总数。

    succ

    成功完成任务操作的文件数。

    skip

    无需操作的文件数,例如导入任务中文件已导入。

    failed

    任务操作失败的文件数。

    throughput_MBps

    任务执行过程中的平均吞吐(MB/s)。

    文件信息(FILE)

    path

    文件在Fileset中的路径。

    status

    文件状态信息。

    • cached:文件已导入或导出。

    • uncached:文件未导入。

    • dirty:文件在CPFS端有修改,未导出。

    • NA:文件不存在。

    size

    文件大小,单位为字节。

相关操作

操作

说明

步骤

查看任务

您可以通过控制台查看数据流动任务的配置及运行状态。

  1. 数据流动页签,找到目标数据流动,单击任务管理

  2. 任务管理面板,查看目标任务详情。

取消任务

您可以在控制台取消运行中的数据流动任务。

  1. 数据流动页签,找到目标数据流动,单击任务管理

  2. 任务管理面板,找到目标任务,单击取消

  3. 确认待取消的任务,单击确定

复制任务

您可以通过复制任务重复执行之前已经执行过的任务。

  1. 数据流动页签,找到目标数据流动,单击任务管理

  2. 任务管理面板,找到目标任务,选择

  3. 确认待复制的任务,单击确定

上一篇: 管理数据流动 下一篇: 数据监控