数据导入算子创建完成后,您可以对数据导入算子产出的逻辑表进行加工处理,例如对逻辑表过滤数据、对逻辑表中的某些字段用加工函数做转换,最终产出为逻辑表。此数据加工算子非必须,请根据实际需要进行创建。

说明数据加工标签中,可以添加多个数据加工算子,算子之间目前仅支持线性关系,如下图所示,一个算子的应用逻辑表为其上游算子的产出逻辑表,多个算子被逻辑表连接,形成一个链式结构。因此每个逻辑表都必须被引用,否则任务无法顺利执行。

  1. 在任务列表管理页面,单击任务名称或者编辑按钮。
  2. 在任务基础信息页面,单击任务配置下的数据加工标签页。

  3. 单击添加数据加工算子
  4. 添加数据加工算子页面,输入以下参数:

    • 加工算子名称
    • 加工算子类型

      当前版本仅支持数据加工。

    • 引用逻辑表

      选择一张逻辑表,可以是数据导入算子产出的逻辑表,或其它算子产出的逻辑表。

    • 产出逻辑表

      为产出的逻辑表起一个名字,不可与当前已存在逻辑表重名。

    • 添加数据过滤条件

      此处配置过滤出id>1的文档,相当于SQL语句中的where子句,是作用在引用逻辑表上的一个过滤条件,详情请参见数据过滤

    • 增加字段
      有两种方式向算子中添加字段,分别是“手动添加”和“从引用逻辑表批量添加”:
      • 手动添加:一次只能添加一个字段到当前算子,适用于较为复杂的数据加工场景,可以修改目标字段名称,也可以选择多个源字段。如果对应字段的数据加工配置函数中需要多个输入参数,也必须进行手动添加。

        单击确认后,在算子字段列表中显示如下:

      • 从引用逻辑表批量添加:可以一次性从引用逻辑表中选择多个字段添加到当前算子,其字段名称不可修改。适用于较为简单的数据加工流程,例如不需要数据加工函数,或数据加工函数仅需要一个参数的场景。

        在查找字段列勾选需要的字段,单击向右箭头,再单击确认,所选择的所有字段被添加到算子中。每个字段自动生成一个同名的目标字段,如下图所示:

      数据加工配置

      在添加字段完成后,单击数据加工配置开始配置。以TName为例,选择CONCAT函数,该函数的功能是对两个字段值进行拼接。

      在下拉列表中选择函数CONCAT,在下方输入框中,填写该函数所需要的输入参数(即需要进行连接的 name 和 title 这两个字段名称),各参数之间用英文逗号隔开。配置完成后单击 确认,如下图所示:

      确认提交后,在算子字段列表中显示如下:

  5. 当算子中的所有字段配置完成后,再点击右下方确认按钮保存配置。