本文为您介绍数据合并、清洗加工、聚合、转置、关联等数据加工操作。
前提条件
已完成数据输入的配置,请参见输入数据。
合并
合并用于将两张表合并为一张表,合并的数据在行上扩展。
合并节点用于将数据输入1节点和数据输入2节点中,名称相同的字段进行合并。
从左侧的节点操作区,拖拽合并至画布区。
连接需要合并的节点。
配置合并节点。
此时,合并节点中的字段为数据输入1和数据输入2中名称相同的字段。
查看数据详情。
支持查看数据探查、数据详情和字段列表。
数据探查,可以了解表中数据的:
基本特征(类型、格式)
质量:正常值、空值 | 异常值
单个字段下,数值的分布、类型、格式
联动模式下的数据关系、值分布规律
具体操作请参见数据探查。
数据详情:可以展示两张表合并后的列和数据。主表(数据输入1)中的字段和数据将全部展示,次表(数据输入2)中相同的字段对应的数据将在行上进行扩展,不同的字段与数据不会展示。
字段列表:展示主表数据输入1的字段。
清洗加工
去掉数据表中不需要的列和行,并新增需要的列和行。
从左侧的节点操作区,拖拽清洗加工至画布区。
连接需要清洗加工的节点。
在清洗加工节点配置区域,进行以下配置。
新增计算字段
您可以按照图示步骤进入新增计算字段配置界面。
在新增字段-公式函数编辑页,输入①新建字段名称和②字段表达式,选择③字段类型,单击④确定后保存配置。
更多的计算字段示例请参见数据集的新建计算字段。
新增窗口函数
您可以按照图示步骤进入新增窗口函数配置界面。
在新增字段-窗口函数编辑页输入①新建字段名称和②字段表达式,选择③字段类型,进行④窗口配置,单击⑤确定后保存配置。
说明字段表达式只需输入window_fuc(args)部分,不需要输入over及之后的sql代码,否则会报错。
其中,窗口配置需要配置以下内容:①分组字段
默认选择不分组。
说明不分组表示将全部数据当作一个分组进行计算。
若设置了分组字段,则将在每个分组内进行计算。
支持选择多个分组字段。
您也可以自定义设置分组字段。
②排序
默认选择不排序,您也可选择字段,进行自定义排序设置。
说明设置排序后,将在分组内根据排序字段进行排序。
排序字段最多设置5个。
若存在排序函数、cume_dist(),则必须有排序字段。
③窗口范围
默认不设置范围,您可以选择按行选取或按值选取。窗口范围选取后,参与计算的数据将在窗口范围内进行,不设置范围则在整个分组内计算。
窗口起点支持选择分区起始元素、当前元素、前置偏移n。
分区起始元素:该分组内的第1行/值数据。
当前元素:当前行/值。
前置偏移n:当前行/值向前偏移n行/值。
窗口终点支持选择当前元素、分区结束元素、后置偏移n。
当前元素:当前行/值。
分区结束元素:该分组的最后1行/值数据。
后置偏移n:当前行向后偏移n行/值。
说明若存在排序函数和cume_dist()、ntile()、lead()、lag(),窗口范围不支“按行选取”和“按值选取”。
若排序字段中存在日期时间、时间、文本类型,不支持按值选取的“前置偏移n”和“后置偏移n”。
若窗口范围为按值选取,则必须有1个排序字段(有且只能有1个)。
新增分组赋值
您可以按照图示步骤进入新增分组赋值配置界面。
在新增字段-分组赋值编辑页输入①新建字段名称,选择②分组字段,进行③分组设置,单击④确定后保存配置。
保存配置后,数据集中增加1个维度字段,按照配置将分组名称填入该列中。更多的分组维度示例请参见分组维度。
合并字段
说明仅字段类型为文本时,才支持此操作。
筛选
筛选方式支持枚举筛选、条件筛选、和字段对比。
更多的筛选示例请参见仪表板的复合查询示例展示。
修改字段类型
在字段列表视图下,修改字段类型。
说明转换为日期字段时,支持以下3种日期类型:
日期:仅日期格式,例如,yyyy-MM-dd。
日期时间:日期+时间格式;例如,yyyy-MM-dd HH:mm:ss。
时间:仅时间格式,例如,HH:mm:ss。
您也可以自定义日期格式。
值替换
在字段列表视图下,修改字段的值。
说明仅字段类型为文本时,才支持此操作。
拆分字段
在字段列表视图下,根据字段值进行拆分字段。
说明仅字段类型为文本时,才支持此操作。
重命名字段
鼠标悬浮至目标字段上,单击右侧的图标(①),或者双击目标字段名称(②),均可以重命名字段。
编辑字段
复制字段
针对已有字段,复制一个字段表达式和字段类型相同的字段,方便您快速创建同类型字段,提高数据准备的效率。
删除字段
针对多余字段,完成数据的清洗加工。
查看数据详情。
支持查看数据探查、数据详情和字段列表。
聚合
根据选定的维度,在指定的度量上做数据汇总或平均。
从左侧的节点操作区,拖拽聚合至画布区。
连接需要聚合节点。
在聚合节点配置区域,按照下图指引,配置分组字段和汇总字段。
查看数据详情。
支持查看数据探查、数据详情和字段列表。
转置
实现数据表的行列转置。
从左侧的节点操作区,拖拽转置至画布区。
选择转置类型并进行转置配置。支持选择行转列或列转行。
行转列
拖入需要转置的列,会自动显示该列的枚举值,默认全部勾选。
说明最多可添加1个需要转置的列。
拖入填充列。
转置效果。
转置前
转置后
列转行
拖入需要转置的列。
说明最多可添加10个需要转置的列。
转置效果。
转置前
转置后
查看数据详情。
支持查看数据探查、数据详情和字段列表。
关联
将两张表关联为一张宽表,并进行需要的数据处理,关联的数据在列上扩展。
从左侧的节点操作区,拖拽关联至画布区。
连接需要关联的节点。
按照下图指引,配置关联节点。
建立关联关系后,选择两表要关联的字段,可添加多个关联字段。
提供4种关联类型:内关联、左关联、右关联、外关联。
内关联:使用内关联时,生成的表将包含与两个表均匹配的值。
左关联:使用左关联时,生成的表将包含左侧表中的所有值以及右侧表中的对应匹配项。当左侧表中的值在右侧表中没有对应匹配项时,将在数据视图中看到null值。
右关联:使用右关联时,生成的表将包含右侧表中的所有值以及左侧表中的对应匹配项。当右侧表中的值在左侧表中没有对应匹配项时,将在数据视图中看到null值。
外关联:使用完全外部关联时,生成的表将包含两个表中的所有值。当任一表中的值在另一个表中没有匹配项时,将在数据视图中看到null值。
两个关联的表中如果有相同的字段,将自动对字段进行重命名。
查看数据详情。
支持查看数据探查、数据详情和字段列表。
数据加工完成后,您可以将加工后的数据导出。请参见输出数据。