DataWorks是阿里云的一站式大数据开发治理平台。云数据库 SelectDB 版与DataWorks深度集成,支持数据集成、数据开发、数据分析和数据服务等多种场景。本文介绍DataWorks与云数据库 SelectDB 版的集成能力概览及使用方式。
概述
DataWorks提供数据集成、数据开发、数据治理、数据分析等全链路数据开发能力。通过将云数据库 SelectDB 版作为数据源接入DataWorks,您可以实现以下集成场景:
集成场景 | 功能说明 | 典型使用场景 |
数据集成 | 支持通过离线同步任务将数据写入或读取云数据库 SelectDB 版,支持单表离线同步和整库离线同步。 | 将MySQL、PostgreSQL等业务数据库中的数据批量同步至云数据库 SelectDB 版进行分析。 |
数据开发 | 在DataWorks的Data Studio中创建SelectDB数据库节点,进行SQL任务开发与调度。 | 周期性执行ETL任务、SQL脚本定时调度,实现数据加工自动化。 |
数据分析 | 在DataWorks的数据分析模块中,通过SQL查询直接查询和分析云数据库 SelectDB 版中的数据。 | 临时数据探查、即席查询、结果可视化和快速报表分析。 |
数据服务 | 基于云数据库 SelectDB 版中的数据表快速生成API,无需额外开发即可对外提供数据服务。通过Doris数据源类型接入(云数据库 SelectDB 版基于Apache Doris内核,完全兼容)。 | 将云数据库 SelectDB 版中的分析结果通过API快速开放给业务应用调用。 |
前提条件
在使用DataWorks集成云数据库 SelectDB 版前,请确保满足以下条件:
已开通DataWorks服务并创建工作空间。具体操作,请参见创建DataWorks工作空间。
已完成网络连通配置。DataWorks资源组需要能访问云数据库 SelectDB 版实例。
私网连接(推荐):当DataWorks资源组与云数据库 SelectDB 版在同一VPC内时,使用VPC地址进行连接。
公网连接:需要将DataWorks资源组的弹性公网IP添加至云数据库 SelectDB 版的白名单中。具体操作,请参见添加白名单。
在DataWorks中添加SelectDB数据源
使用DataWorks的数据集成、数据开发或数据分析功能前,您需要先在DataWorks中添加SelectDB数据源。
操作步骤
登录DataWorks控制台,进入目标工作空间的管理中心。
在左侧导航栏中选择数据源,单击新增数据源。
选择SelectDB类型,并配置以下关键参数:
参数
说明
主机地址/IP
填写云数据库 SelectDB 版实例的VPC 地址(或公网地址)。
端口号
MySQL协议端口号:9030。
数据库名称
数据库名称。
HTTP 连接地址
填写云数据库 SelectDB 版实例的VPC 地址(或公网地址)和HTTP 协议端口。格式为
地址:HTTP端口号。用户名
云数据库 SelectDB 版数据仓库的用户名。
密码
对应用户的登录密码。
您可以在云数据库 SelectDB 版控制台的实例详情页面,在网络信息区域获取VPC 地址(或公网地址)、MySQL 协议端口以及HTTP 协议端口。
单击测试连通性,验证资源组与数据源之间的网络连通性。测试通过后,单击完成创建。
使用公网连接时,需要将DataWorks资源组的弹性公网IP添加到云数据库 SelectDB 版的白名单中。如何获取资源组的弹性公网IP以及添加白名单的详细操作,请参见添加白名单。
更多关于创建SelectDB数据源的详细操作,请参见SelectDB数据源。
数据集成:离线同步SelectDB数据
DataWorks数据集成支持通过离线同步任务将数据写入或读取云数据库 SelectDB 版。
功能说明
同步方式:支持单表离线同步和整库离线同步。整库离线同步支持从MySQL、PostgreSQL等数据源将数据写入SelectDB。
同步方向:支持将数据写入(Writer)和从云数据库 SelectDB 版读取(Reader)数据。
字段类型:不支持写入BITMAP、HLL(HyperLogLog)和QUANTILE_STATE类型的字段。
操作步骤
在DataWorks中添加SelectDB数据源(以及数据来源对应的数据源,如MySQL数据源)。
进入DataWorks的Data Studio,创建离线同步任务。
配置数据来源(Reader)和数据去向(Writer)。选择SelectDB作为数据去向或数据来源,配置目标表、字段映射和同步参数。
运行同步任务,验证数据同步是否成功。
有关向导模式和脚本模式配置离线同步任务的完整操作说明,请参见通过DataWorks导入数据。
数据开发:在DataWorks中开发SelectDB SQL任务
DataWorks的Data Studio支持创建SelectDB数据库节点,您可以在节点中编写和调度SQL任务,实现数据加工自动化。
功能说明
支持创建SelectDB类型的数据库节点,在节点中编写SQL语句进行数据开发。
支持配置调度属性,实现SQL任务的周期性自动执行。
支持将任务发布至生产环境,实现开发与生产的隔离管理。
操作步骤
在DataWorks的Data Studio中,创建一个数据库节点。
选择已配置的SelectDB数据源,编写需要执行的SQL语句。
配置Serverless资源组,运行并调试SQL任务。
根据需求配置调度属性(如调度周期、依赖关系等),将任务发布至生产环境。
有关数据库节点的创建和使用的完整操作说明,请参见数据库节点。
数据分析:使用SQL查询分析SelectDB数据
DataWorks的数据分析模块支持SelectDB作为查询数据源,您可以通过SQL即席查询的方式分析云数据库 SelectDB 版中的数据。
功能说明
支持在数据分析 > SQL查询中新建SQL文件,通过运行配置选择SelectDB类型数据源后,编写和运行SQL语句。
支持查询模式和临时表模式等多种运行模式。
支持将查询结果以图表形式可视化展示,并支持导出查询结果。
操作步骤
进入DataWorks的数据分析 > SQL查询。
在左侧我的文件目录中,单击右侧的+图标,选择新建SQL文件。
单击右侧运行配置,将类型设置为SelectDB,并在数据源名称中选择已添加的SelectDB数据源。
在SQL编辑器中编写查询语句,单击运行执行查询。
在查询结果区域查看数据,并可根据需要切换为图表展示或导出数据。
有关SQL查询的完整操作说明,请参见SQL查询(新版)。
数据服务:基于SelectDB数据创建API
DataWorks数据服务支持基于数据表快速生成API,对外提供数据服务。云数据库 SelectDB 版基于Apache Doris内核构建,与Doris完全兼容,因此您可以通过DataWorks数据服务的Doris数据源类型接入云数据库 SelectDB 版。
功能说明
支持通过向导模式或脚本模式,基于云数据库 SelectDB 版中的数据表快速创建API。
支持API的测试、发布、授权和调用管理。
通过Doris数据源类型接入,使用JDBC URL连接云数据库 SelectDB 版实例。
添加Doris数据源
由于云数据库 SelectDB 版与Apache Doris完全兼容,您需要在DataWorks中添加一个Doris类型的数据源,将连接信息指向云数据库 SelectDB 版实例。关键配置参数如下:
参数 | 说明 |
主机地址/IP | 填写云数据库 SelectDB 版实例的VPC 地址(或公网地址)。 |
端口号 | MySQL协议端口号:9030。 |
数据库名称 | 数据库名称。 |
FE endpoint | 填写云数据库 SelectDB 版实例的VPC 地址(或公网地址)和HTTP 协议端口。格式为 |
用户名 | 云数据库 SelectDB 版数据仓库的用户名。 |
密码 | 对应用户的登录密码。 |
您可以在云数据库 SelectDB 版控制台的实例详情页面,在网络信息区域获取VPC 地址(或公网地址)、MySQL 协议端口以及HTTP 协议端口。
有关添加Doris数据源的详细操作,请参见配置数据源。
操作步骤
在DataWorks中添加Doris数据源(连接信息指向云数据库 SelectDB 版实例)。
进入DataWorks的数据服务模块,通过向导模式或脚本模式创建API。选择已添加的Doris数据源,配置API参数和返回字段。
测试API,确认返回结果符合预期后,发布API。
对API进行授权管理,将API提供给业务应用调用。
有关数据服务的完整操作说明,请参见数据服务入门。