管理数据流动任务
本文介绍如何在文件存储控制台创建、管理CPFS智算版文件系统的数据流动任务及查看任务失败原因。
背景信息
通过控制台创建的数据流动任务为批式任务,仅能一次性导入或导出一个目录中的所有文件至另一个目录,无法实现单文件粒度的持续性流动。如果您需要实现单文件粒度的持续性流动,则需通过流式任务的OpenAPI进行操作。具体操作,请参见数据流动流式任务最佳实践。
前提条件
创建任务
登录文件存储控制台。
在左侧导航栏,选择文件系统>文件系统列表。
在顶部菜单栏,选择地域。
在文件系统列表页面,单击目标CPFS智算版文件系统名称。
在文件系统详情页面,单击数据流动。
在数据流动页面,找到目标数据流动,单击任务管理。
在任务管理面板,单击创建任务。
在创建任务面板,您可以创建不同类型的任务并配置任务详情。
导入数据
Symlink类型的文件导入到CPFS后,会转变为包含数据的普通文件,并丢失Symlink信息。
如果OSS Bucket存在多个版本,则只复制最新的版本。
不支持长度大于255字节的文件名或子目录名。
当文件名和文件子目录发生冲突时,在CPFS文件系统中会出现对象冲突的情况,只能确保其中一个操作成功,而另一个则会失败。
配置项
说明
导入数据类型
支持数据+元数据类型。表示同时导入文件的数据块及元数据。
导入文件
选择数据流动任务执行的目录或文件列表。必须是OSS Object Prefix内的相对路径,且以正斜线(/)开头和结尾。
说明如果创建数据流动时配置的CPFS路径不存在,您可以选中如果您当前创建的CPFS目录不存在,系统将为您自动创建,以防导入数据失败。
冲突策略
当CPFS智算版文件系统与OSS Bucket存在同名文件时的处理策略。
跳过同名文件(缺省):忽略同名文件不进行同步。
保持最新:同名文件比较更新时间(即mtime),保持更新的版本。OSS采用修改时间,CPFS采用修改时间。
覆盖同名文件:将同名文件覆盖为OSS端版本。选中将当前源端文件覆盖目标端已存在的同名文件,请确保您已备份重要数据。
导出数据
源端OSS Bucket已开启版本控制。在数据流动的使用过程中,不能暂停版本控制,否则执行导出任务时会报错。更多信息,请参见版本控制介绍。
Symlink类型的文件在同步到OSS后,不会同步Symlink所指向的文件,而是会变成一个普通的无数据空白对象。
Hardlink类型的文件仅作为普通文件同步到OSS。
不支持Socket、Device、Pipe类型的文件导出到OSS Bucket。
不支持长度大于1023字符的目录路径。
CPFS智算版会将File Modification timestamps属性导出到OSS Bucket的自定义元数据中,其命名为
x-oss-meta-alihbr-sync-mtime
,不能删除或修改,否则文件系统中的File Modification timestamps属性会错误。
配置项
说明
导出数据类型
支持数据+元数据类型。表示同时导出文件的数据块及元数据。
导出文件
选择数据流动任务执行的目录或者文件列表。必须是OSS Object Prefix内的相对路径,且以正斜线(/)开头和结尾。
冲突策略
当CPFS智算版文件系统与OSS Bucket存在同名文件时的处理策略。
跳过同名文件(缺省):忽略同名文件不进行同步。
保持最新:同名文件比较更新时间(即mtime),保持更新的版本。OSS采用修改时间,CPFS采用修改时间。
覆盖同名文件:将同名文件覆盖为CPFS端版本。选中将当前源端文件覆盖目标端已存在的同名文件,请确保您已备份重要数据。
单击确定。
取消任务
取消运行中的数据流动任务。
在数据流动页签,找到目标数据流动,单击任务管理。
在任务管理面板,找到目标任务,单击取消。
确认待取消的任务,单击确定。
复制任务
您可以通过复制任务重复执行之前已经执行过的任务。
在数据流动页签,找到目标数据流动,单击任务管理。
在任务管理面板,找到目标任务,选择图标 > 复制。
确认待复制的任务,单击确定。
查看任务失败原因
当数据流动任务运行失败后,系统会显示失败原因或生成一份失败任务报告,您可以在控制台上查看失败原因或下载该报告并排查失败原因。
在数据流动页签,找到目标数据流动,单击任务管理。
在任务管理面板,找到目标任务,并将光标放置失败右侧的气泡上,查看失败原因或下载失败报告查看失败原因。
说明若未显示失败原因或无报告或无法根据报告排查失败原因,请提交工单咨询处理。
查看任务配置信息和运行状态
在控制台中查看批式任务的配置信息及运行状态。如果想查看流式任务的配置信息及运行状态,可通过调用DescribeDataFlowTasks API进行查询。
在数据流动页签,找到目标数据流动,单击任务管理。
在任务管理面板,查看任务的配置信息及运行状态。
参数
说明
任务ID
数据流动任务的唯一标识。
类型
任务类型。包括:导入或导出。
冲突策略
目标文件系统中已存在同名数据时的处理方式。包括:
跳过同名文件(缺省)
保持最新
覆盖同名文件
数据源地址
数据从源端到目的端的完整传输路径。
数据目的地址
数据源目录
源端扫描总量
扫描到的源端数据量。单位:字节。
同步完成量
已完成数据流动数据量(包括跳过数据)。单位:字节。
实际传输量
实际流动的数据量。单位:字节。
平均速度
数据流动的平均传输速度。单位:Byte/s。
剩余时长
基于当前速度估算的任务完成所需时间。
时间段
任务开始时间和结束时间。
进度
当前任务的执行进度百分比。单位:%。
状态
当前任务的执行情况。包括:
等待:数据流动任务已创建,在排队中未开始执行。
运行中:数据流动任务在执行中。
失败:数据流动任务执行失败。
已取消:数据流动任务被取消并且没有完成。
取消中:数据流动任务正在被取消。
结束:数据流动任务执行结束。
查看任务报告
当数据流动任务运行结束后,系统将根据实际情况生成跳过的文件报告、失败的文件报告或成功文件报告。您可以在控制台下载报告并查看文件的详细信息。
在数据流动页签,找到目标数据流动,单击任务管理。
在任务管理面板,找到目标任务,单击下载任务报告。
确认待下载的报告,单击。
查看任务性能监控或配置告警规则
要查看任务性能监控或配置告警规则,请确保使用的是CPFS智算版文件系统2.6.0及以上版本,并已创建数据流动任务。
如果您想了解数据流动导入或导出任务的读写吞吐、读写IOPS、元数据QPS等性能概况,请参见查看CPFS性能监控。
如果您希望为数据流动任务指定监控指标设置报警规则,以便及时获知指标异常并迅速处理该异常,请参见配置基础告警规则。