通过DataWorks使用云数据库SelectDB版

更新时间:
复制为 MD 格式

DataWorks是阿里云的一站式大数据开发治理平台。云数据库 SelectDB 版DataWorks深度集成,支持数据集成、数据开发、数据分析和数据服务等多种场景。本文介绍DataWorks云数据库 SelectDB 版的集成能力概览及使用方式。

概述

DataWorks提供数据集成、数据开发、数据治理、数据分析等全链路数据开发能力。通过将云数据库 SelectDB 版作为数据源接入DataWorks,您可以实现以下集成场景:

集成场景

功能说明

典型使用场景

数据集成

支持通过离线同步任务将数据写入或读取云数据库 SelectDB 版,支持单表离线同步和整库离线同步。

MySQL、PostgreSQL等业务数据库中的数据批量同步至云数据库 SelectDB 版进行分析。

数据开发

DataWorksData Studio中创建SelectDB数据库节点,进行SQL任务开发与调度。

周期性执行ETL任务、SQL脚本定时调度,实现数据加工自动化。

数据分析

DataWorks的数据分析模块中,通过SQL查询直接查询和分析云数据库 SelectDB 版中的数据。

临时数据探查、即席查询、结果可视化和快速报表分析。

数据服务

基于云数据库 SelectDB 版中的数据表快速生成API,无需额外开发即可对外提供数据服务。通过Doris数据源类型接入(云数据库 SelectDB 版基于Apache Doris内核,完全兼容)。

云数据库 SelectDB 版中的分析结果通过API快速开放给业务应用调用。

前提条件

在使用DataWorks集成云数据库 SelectDB 版前,请确保满足以下条件:

  • 已开通DataWorks服务并创建工作空间。具体操作,请参见创建DataWorks工作空间

  • 已完成网络连通配置。DataWorks资源组需要能访问云数据库 SelectDB 版实例。

    • 私网连接(推荐):当DataWorks资源组与云数据库 SelectDB 版在同一VPC内时,使用VPC地址进行连接。

    • 公网连接:需要将DataWorks资源组的弹性公网IP添加至云数据库 SelectDB 版的白名单中。具体操作,请参见添加白名单

DataWorks中添加SelectDB数据源

使用DataWorks的数据集成、数据开发或数据分析功能前,您需要先在DataWorks中添加SelectDB数据源。

操作步骤

  1. 登录DataWorks控制台,进入目标工作空间的管理中心

  2. 在左侧导航栏中选择数据源,单击新增数据源

  3. 选择SelectDB类型,并配置以下关键参数:

    参数

    说明

    主机地址/IP

    填写云数据库 SelectDB 版实例的VPC 地址(或公网地址)。

    端口号

    MySQL协议端口号:9030。

    数据库名称

    数据库名称。

    HTTP 连接地址

    填写云数据库 SelectDB 版实例的VPC 地址(或公网地址)和HTTP 协议端口。格式为地址:HTTP端口号

    用户名

    云数据库 SelectDB 版数据仓库的用户名。

    密码

    对应用户的登录密码。

    您可以在云数据库 SelectDB 版控制台的实例详情页面,在网络信息区域获取VPC 地址(或公网地址)、MySQL 协议端口以及HTTP 协议端口
  4. 单击测试连通性,验证资源组与数据源之间的网络连通性。测试通过后,单击完成创建

重要

使用公网连接时,需要将DataWorks资源组的弹性公网IP添加到云数据库 SelectDB 版的白名单中。如何获取资源组的弹性公网IP以及添加白名单的详细操作,请参见添加白名单

更多关于创建SelectDB数据源的详细操作,请参见SelectDB数据源

数据集成:离线同步SelectDB数据

DataWorks数据集成支持通过离线同步任务将数据写入或读取云数据库 SelectDB 版

功能说明

  • 同步方式:支持单表离线同步和整库离线同步。整库离线同步支持从MySQL、PostgreSQL等数据源将数据写入SelectDB。

  • 同步方向:支持将数据写入(Writer)和从云数据库 SelectDB 版读取(Reader)数据。

  • 字段类型:不支持写入BITMAP、HLL(HyperLogLog)和QUANTILE_STATE类型的字段。

操作步骤

  1. DataWorks中添加SelectDB数据源(以及数据来源对应的数据源,如MySQL数据源)。

  2. 进入DataWorksData Studio,创建离线同步任务。

  3. 配置数据来源(Reader)和数据去向(Writer)。选择SelectDB作为数据去向或数据来源,配置目标表、字段映射和同步参数。

  4. 运行同步任务,验证数据同步是否成功。

有关向导模式和脚本模式配置离线同步任务的完整操作说明,请参见通过DataWorks导入数据

数据开发:在DataWorks中开发SelectDB SQL任务

DataWorksData Studio支持创建SelectDB数据库节点,您可以在节点中编写和调度SQL任务,实现数据加工自动化。

功能说明

  • 支持创建SelectDB类型的数据库节点,在节点中编写SQL语句进行数据开发。

  • 支持配置调度属性,实现SQL任务的周期性自动执行。

  • 支持将任务发布至生产环境,实现开发与生产的隔离管理。

操作步骤

  1. DataWorksData Studio中,创建一个数据库节点

  2. 选择已配置的SelectDB数据源,编写需要执行的SQL语句。

  3. 配置Serverless资源组,运行并调试SQL任务。

  4. 根据需求配置调度属性(如调度周期、依赖关系等),将任务发布至生产环境。

有关数据库节点的创建和使用的完整操作说明,请参见数据库节点

数据分析:使用SQL查询分析SelectDB数据

DataWorks的数据分析模块支持SelectDB作为查询数据源,您可以通过SQL即席查询的方式分析云数据库 SelectDB 版中的数据。

功能说明

  • 支持在数据分析 > SQL查询中新建SQL文件,通过运行配置选择SelectDB类型数据源后,编写和运行SQL语句。

  • 支持查询模式和临时表模式等多种运行模式。

  • 支持将查询结果以图表形式可视化展示,并支持导出查询结果。

操作步骤

  1. 进入DataWorks数据分析 > SQL查询

  2. 在左侧我的文件目录中,单击右侧的+图标,选择新建SQL文件

  3. 单击右侧运行配置,将类型设置为SelectDB,并在数据源名称中选择已添加的SelectDB数据源。

  4. SQL编辑器中编写查询语句,单击运行执行查询。

  5. 在查询结果区域查看数据,并可根据需要切换为图表展示或导出数据。

有关SQL查询的完整操作说明,请参见SQL查询(新版)

数据服务:基于SelectDB数据创建API

DataWorks数据服务支持基于数据表快速生成API,对外提供数据服务。云数据库 SelectDB 版基于Apache Doris内核构建,与Doris完全兼容,因此您可以通过DataWorks数据服务的Doris数据源类型接入云数据库 SelectDB 版

功能说明

  • 支持通过向导模式或脚本模式,基于云数据库 SelectDB 版中的数据表快速创建API。

  • 支持API的测试、发布、授权和调用管理。

  • 通过Doris数据源类型接入,使用JDBC URL连接云数据库 SelectDB 版实例。

添加Doris数据源

由于云数据库 SelectDB 版Apache Doris完全兼容,您需要在DataWorks中添加一个Doris类型的数据源,将连接信息指向云数据库 SelectDB 版实例。关键配置参数如下:

参数

说明

主机地址/IP

填写云数据库 SelectDB 版实例的VPC 地址(或公网地址)。

端口号

MySQL协议端口号:9030。

数据库名称

数据库名称。

FE endpoint

填写云数据库 SelectDB 版实例的VPC 地址(或公网地址)和HTTP 协议端口。格式为地址:端口号

用户名

云数据库 SelectDB 版数据仓库的用户名。

密码

对应用户的登录密码。

您可以在云数据库 SelectDB 版控制台的实例详情页面,在网络信息区域获取VPC 地址(或公网地址)、MySQL 协议端口以及HTTP 协议端口

有关添加Doris数据源的详细操作,请参见配置数据源

操作步骤

  1. DataWorks中添加Doris数据源(连接信息指向云数据库 SelectDB 版实例)。

  2. 进入DataWorks的数据服务模块,通过向导模式或脚本模式创建API。选择已添加的Doris数据源,配置API参数和返回字段。

  3. 测试API,确认返回结果符合预期后,发布API。

  4. API进行授权管理,将API提供给业务应用调用。

有关数据服务的完整操作说明,请参见数据服务入门