数据准备(轻量ETL)可以将数据源表或者数据集中的数据进行清洗、聚合、关联和合并等操作,并将加工后的数据输出,让不会写SQL代码的业务人员能够低成本完成BI可视化数据的准备。
常规流程为在数据源模块建立数据库连接后,开发者将数据源表或者数据集作为输入,在数据集模块进行建模,并基于数据集深度分析与展示数据。在实际应用时,从数据源表到数据集环节,需要对数据源表进行额外的加工处理(例如,对数据进行合并、聚合等操作)。因此,Quick BI引入数据准备模块,通过轻量ETL对数据源表或者数据集进行清洗加工处理,加工之后的数据重新写回到数据源表或者数据集中,再进行数据建模和数据深度分析。
您可以按照以下步骤完成快速入门。
使用限制
开发者账号支持使用轻量ETL。
若您需要输入数据作为数据源,请参见数据源功能项列表以查看支持ETL功能的数据源。
使用ETL需要拥有相应数据集或数据源的权限:
输入节点:
数据集:必须有数据集使用权限。
数据源表:必须有数据源使用权限。
输出节点:
数据集:必须有数据集新建(编辑)权限。
数据源表:必须有数据源使用权限。
仅专业版群空间支持使用轻量ETL。
专业版正式客户ETL任务数:可以发布10个任务。
ETL试用用户可以发布3个任务,包括试用专业版的用户和高级版试用ETL模块的客户。
节点字段支持全量展示,最多可勾选200个字段。
ETL输入节点最大输入数据1000万行。
功能入口
登录Quick BI控制台。
在Quick BI产品首页,通过以下入口,新建数据准备。
入口一:工作台->选择工作空间->单击数据准备->单击新建数据准备。
入口二:工作台->选择工作空间->单击数据准备右边的图标,快速创建数据准备。
入口三:工作台->选择工作空间->单击数据集->选择目标数据集并单击数据集右边的图标->单击新建数据准备。
入口四:工作台->选择工作空间->单击数据源->选择目标数据源->选择目标数据表标并单击图标新建数据准备。
进入数据编辑页面。
输入数据
支持从目标数据源中获取数据表或者使用有权限的数据集,作为输入数据。
在数据准备编辑页面,从左侧的节点操作区,拖拽数据输入至画布区,进行数据流构建。
配置节点
输入类型为数据源表
选择输入类型为数据源表。
选择数据源。
支持选择MySQL、MaxCompute(ODPS)、SQL Server、Oracle、ClickHouse、Hologres、AnalyticDB for MySQL 3.0、PostgreSQL、PolarDB for MySQL、PolarDB for POSTGRE、PolarDB-X(DRDS)、ADB for PostgreSQL和腾讯TDSQL-H LibraDB的公网数据源。
校验连通性。
若您选择数据源后,出现自动连接失败,请手动点击校验提示,则单击校验连通性。
说明为确保数据源的顺利连接,请将106.15.233.0/24添加至您的数据库白名单。
选择数据表。
此时您可以在页面右侧看到该数据表中的所有字段。
勾选目标字段作为数据输入。
输入类型为数据集
选择输入类型类数据集。
选择数据集。
说明输入数据集仍依赖底层数据源,需要对应数据源类型支持数据准备。
校验连通性。
勾选目标字段作为数据输入。
重复上述步骤,可以配置多个数据输入节点。
配置多个数据输入节点时,选择数据源可以是同一个数据库,也可以是不同数据库。
最多支持添加5个数据输入节点。
本例中,以添加两个数据输入节点为例介绍。
数据输入1的配置示例如下。
数据输入2的配置示例如下。
连接节点
将输入的数据进行清洗加工 ,故需要将输入节点、数据加工节点等连接起来,形成任务流。
本例中,将分布在两个数据库的订单合并,并进行清洗加工、聚合等操作。
合并输入数据节点。
合并节点用于将数据输入1节点和数据输入2节点中,名称相同的字段进行合并。
从左侧的节点操作区,拖拽合并至画布区。
连接需要合并的节点。
配置合并节点并查看合并结果。
此时合并节点中的字段为数据输入1和数据输入2中,名称相同的字段。
清洗加工合并后的数据。
从左侧的节点操作区,拖拽清洗加工至画布区。
连接需要清洗加工的节点。
在清洗加工节点配置区域,按照下图指引,配置字段筛选。
按照下图指引,新增字段,支持新增计算字段、分组赋值和窗口函数。
聚合清洗加工后的数据。
从左侧的节点操作区,拖拽聚合至画布区。
连接需要聚合节点。
在聚合节点配置区域,按照下图指引,配置分组字段和汇总字段。
输出数据
输出数据时,支持输出至已有的目标数据库表或新建的数据库表中,也支持输出至数据集中。
分区表:每次写入会删除表中原有数据,并插入新数据。
非分区表:
覆盖数据:每次写入会覆盖之前的数据。
追加数据:主键/约束不冲突时,插入数据;主键/约束冲突时,则会报错。
从左侧的节点操作区,拖拽数据输出至画布区。
连接需要导出数据的节点。
在数据输出节点配置区域,按照下图指引,配置输出的数据。
输出类型为数据源表。
输出类型为数据集。
输出数据配置完成后,您需要运行才可以在数据库表或者数据集中写入数据。您可以手动触发运行,也可以定期自动运行,周期性的更新数据库表。详情请参见任务运行配置。
输出类型为数据集时,需要组织管理员在空间信息中进行设置,具体请参见新建并管理工作空间。
保存并发布文件
配置完成后,您可以单击保存或保存并发布,保存当前数据准备。
①保存
保存功能仅保存当前操作。
如果仅保存数据准备,则该数据准备的更新点对用户不可见:
当新增数据准备时,保存后该数据准备的状态为未发布,通过保存并发布发布数据准备。
当更新已发布数据准备时,通过重新发布将该更新点发布出去。
②保存并发布
保存并发布功能可以保存当前操作并发布该数据准备。该功能仅对未发布数据准备可见。