数据加工

本文为您介绍数据合并、清洗加工、聚合、转置、关联等数据加工操作。

前提条件

已完成数据输入的配置,请参见输入数据

合并

合并用于将两张表合并为一张表,合并的数据在行上扩展。

合并节点用于将数据输入1节点和数据输入2节点中,名称相同的字段进行合并。

  1. 从左侧的节点操作区,拖拽合并至画布区。探查5

  2. 连接需要合并的节点。数据探查1

  3. 配置合并节点。

    此时,合并节点中的字段为数据输入1和数据输入2中名称相同的字段。数据探查4

  4. 查看数据详情。

    支持查看数据探查数据详情字段列表加工1

说明
  • 数据探查,可以了解表中数据的:

    1. 基本特征(类型、格式)

    2. 质量:正常值、空值 | 异常值

    3. 单个字段下,数值的分布、类型、格式

    4. 联动模式下的数据关系、值分布规律

具体操作请参见数据探查

  • 数据详情:可以展示两张表合并后的列和数据。主表(数据输入1)中的字段和数据将全部展示,次表(数据输入2)中相同的字段对应的数据将在行上进行扩展,不同的字段与数据不会展示。

  • 字段列表:展示主表数据输入1的字段。

清洗加工

去掉数据表中不需要的列和行,并新增需要的列和行。

  1. 从左侧的节点操作区,拖拽清洗加工至画布区。数据探查6

  2. 连接需要清洗加工的节点。数据探查8

  3. 在清洗加工节点配置区域,进行以下配置。

    • 新增计算字段

      • 您可以按照图示步骤进入新增计算字段配置界面。image

      • 新增字段-公式函数编辑页,输入①新建字段名称和②字段表达式,选择③字段类型,单击④确定后保存配置。image

        更多的计算字段示例请参见数据集的新建计算字段

    • 新增窗口函数

      • 您可以按照图示步骤进入新增窗口函数配置界面。image

      • 新增字段-窗口函数编辑页输入①新建字段名称和②字段表达式,选择③字段类型,进行④窗口配置,单击⑤确定后保存配置。

        说明

        字段表达式只需输入window_fuc(args)部分,不需要输入over及之后的sql代码,否则会报错。

        image其中,窗口配置需要配置以下内容:image①分组字段

        • 默认选择不分组。

          说明
          • 不分组表示将全部数据当作一个分组进行计算。

          • 若设置了分组字段,则将在每个分组内进行计算。

          • 支持选择多个分组字段。

        • 您也可以自定义设置分组字段。

          ②排序

          默认选择不排序,您也可选择字段,进行自定义排序设置。

          说明
          • 设置排序后,将在分组内根据排序字段进行排序。

          • 排序字段最多设置5个。

          • 若存在排序函数、cume_dist(),则必须有排序字段。

          ③窗口范围

          默认不设置范围,您可以选择按行选取按值选取。窗口范围选取后,参与计算的数据将在窗口范围内进行,不设置范围则在整个分组内计算。

          • 窗口起点支持选择分区起始元素、当前元素、前置偏移n。

            • 分区起始元素:该分组内的第1行/值数据。

            • 当前元素:当前行/值。

            • 前置偏移n:当前行/值向前偏移n行/值。

          • 窗口终点支持选择当前元素、分区结束元素、后置偏移n。

            • 当前元素:当前行/值。

            • 分区结束元素:该分组的最后1行/值数据。

            • 后置偏移n:当前行向后偏移n行/值。

              说明
              • 若存在排序函数和cume_dist()、ntile()、lead()、lag(),窗口范围不支“按行选取”和“按值选取”。

              • 若排序字段中存在日期时间、时间、文本类型,不支持按值选取的“前置偏移n”和“后置偏移n”。

              • 若窗口范围为按值选取,则必须有1个排序字段(有且只能有1个)。

  • 新增分组赋值

    • 您可以按照图示步骤进入新增分组赋值配置界面。image

    • 新增字段-分组赋值编辑页输入①新建字段名称,选择②分组字段,进行③分组设置,单击④确定后保存配置。image

      保存配置后,数据集中增加1个维度字段,按照配置将分组名称填入该列中。分组1更多的分组维度示例请参见分组维度

  • 合并字段

    说明

    仅字段类型为文本时,才支持此操作。

    合并

  • 筛选筛选

    • 筛选方式支持枚举筛选、条件筛选、和字段对比。image

    • 更多的筛选示例请参见仪表板的复合查询示例展示

  • 修改字段类型

    字段列表视图下,修改字段类型。修改字段类型

    说明

    转换为日期字段时,支持以下3种日期类型:

    • 日期:仅日期格式,例如,yyyy-MM-dd。

    • 日期时间:日期+时间格式;例如,yyyy-MM-dd HH:mm:ss。

    • 时间:仅时间格式,例如,HH:mm:ss。

    您也可以自定义日期格式。

  • 值替换

    字段列表视图下,修改字段的值。

    说明

    仅字段类型为文本时,才支持此操作。

    值替换

  • 拆分字段

    字段列表视图下,根据字段值进行拆分字段。

    说明

    仅字段类型为文本时,才支持此操作。

    拆分

  • 重命名字段

    鼠标悬浮至目标字段上,单击右侧的编辑图标(①),或者双击目标字段名称(②),均可以重命名字段。重命名

  • 编辑字段

    说明

    新增计算字段、新增窗口函数、合并字段拆分字段均支持此操作。

    1编辑

  • 复制字段

    针对已有字段,复制一个字段表达式字段类型相同的字段,方便您快速创建同类型字段,提高数据准备的效率。1复制

  • 删除字段

    针对多余字段,完成数据的清洗加工。1删除

  • 查看数据详情。

    支持查看数据探查数据详情字段列表1清洗

聚合

根据选定的维度,在指定的度量上做数据汇总或平均。

  1. 从左侧的节点操作区,拖拽聚合至画布区。jueh

  2. 连接需要聚合节点。数据探查9

  3. 在聚合节点配置区域,按照下图指引,配置分组字段和汇总字段。数据探查10

  4. 查看数据详情。

    支持查看数据探查数据详情字段列表1聚合

转置

实现数据表的行列转置。

  1. 从左侧的节点操作区,拖拽转置至画布区。image

  2. 选择转置类型并进行转置配置。支持选择行转列列转行image

    1. 行转列

      1. 拖入需要转置的列,会自动显示该列的枚举值,默认全部勾选。image

        说明

        最多可添加1个需要转置的列。

      2. 拖入填充列。image

      3. 转置效果。

        • 转置前image

        • 转置后image

    2. 列转行

      1. 拖入需要转置的列。image

        说明

        最多可添加10个需要转置的列。

      2. 转置效果。

        • 转置前image

        • 转置后image

  3. 查看数据详情。

    支持查看数据探查数据详情字段列表image

关联

将两张表关联为一张宽表,并进行需要的数据处理,关联的数据在列上扩展。

  1. 从左侧的节点操作区,拖拽关联至画布区。关联

  2. 连接需要关联的节点。2关联

  3. 按照下图指引,配置关联节点。3关联

    建立关联关系后,选择两表要关联的字段,可添加多个关联字段。

    • 提供4种关联类型:内关联、左关联、右关联、外关联。

      • 内关联:使用内关联时,生成的表将包含与两个表均匹配的值。

      • 左关联:使用左关联时,生成的表将包含左侧表中的所有值以及右侧表中的对应匹配项。当左侧表中的值在右侧表中没有对应匹配项时,将在数据视图中看到null值。

      • 右关联:使用右关联时,生成的表将包含右侧表中的所有值以及左侧表中的对应匹配项。当右侧表中的值在左侧表中没有对应匹配项时,将在数据视图中看到null值。

      • 外关联:使用完全外部关联时,生成的表将包含两个表中的所有值。当任一表中的值在另一个表中没有匹配项时,将在数据视图中看到null值。

    • 两个关联的表中如果有相同的字段,将自动对字段进行重命名。

  4. 查看数据详情。

    支持查看数据探查、数据详情字段列表4关联

数据加工完成后,您可以将加工后的数据导出。请参见输出数据