DataWorks on EMR Serverless StarRocks最佳实践

DataWorks支持StarRocks数据源,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、开发、分析、数据服务等功能。本文为您介绍EMR Serverless StarRocks在DataWorks上的操作流程。

背景信息

了解EMR Serverless StarRocks

StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,致力于构建极速和统一分析体验。

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致的性能和丰富的OLAP场景模型,包括OLAP多维分析、数据湖分析、高并发查询以及实时数据分析。

更多关于StarRocks、EMR Serverless StarRocks的介绍请参见什么是EMR Serverless StarRocks

也可查找钉钉群号:24010016636,加入EMR Serverless StarRocks交流钉钉群。

了解DataWorks on EMR Serverless StarRocks

DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据服务上的极速表现,全面助力StarRocks在各类业务场景上的使用。

单击查看基本概念和主要DataWorks子产品介绍

使用EMR Serverless StarRocks,涉及的主要DataWorks子产品模块、主要概念的简单介绍如下。

基本概念/子产品

简介

参考文档

资源组

您需要使用DataWorks资源组以满足各类任务在DataWorks上运行。

数据源

您需要创建数据源以便在DataWorks上使用该数据源。使用EMR Serverless StarRocks时,您需要创建StarRocks类型的数据源,以便可通过数据源对接EMR Serverless StarRocks进行任务开发与运行。

数据源介绍详情请参见StarRocks数据源

数据集成

DataWorks为您提供数据集成子模块,可实现多种数据源间多种同步场景下的数据同步。

数据集成模块介绍请参见数据集成概述

数据开发与运维中心

DataWorks为您提供数据开发运维中心两个子模块,可实现在数据开发中开发并调试任务,完成后将任务提交发布至运维中心,实现周期性自动运行。

数据分析

DataWorks数据分析可帮助您在线洞察分析、编辑和分享数据。

数据分析概述

数据服务

DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台,旨在为个人、团队与企业提供全面的数据服务与共享能力,帮助用户统一管理面向内外部的API服务。

数据服务概述

数据地图

DataWorks的数据地图是在元数据基础上提供的企业数据目录管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。数据地图可以帮助您更好地查找、理解和使用数据。

数据地图概述

前提条件

  • 已开通DataWorks并创建工作空间。操作详情请参见开通DataWorks服务

  • 已购买资源组并完成资源组的空间绑定、网络等配置。详情请参见资源组管理

  • 已创建EMR Serverless StarRocks实例,操作详情请参见快速使用存算一体版实例

    说明

    创建完成StarRocks实例后,您可以通过在EMR控制台查看实例信息,并通过EMR StarRocks Manager连接实例查看数据库、表等信息。

  • 已将DataWorks资源组的白名单IP地址添加至EMR Serverless StarRocks实例的白名单中。

    添加EMR Serverless StarRocks实例白名单的操作入口如下。

    image.png

创建数据源

在DataWorks上使用EMR Serverless StarRocks时,您需要先创建StarRocks类型的数据源,对接已创建的EMR Serverless StarRocks数据库,以便后续在DataWorks的各个子模块中使用EMR Serverless StarRocks。

数据源介绍详情请参见StarRocks数据源,数据源的创建入口及配置要点如下。

  1. 进入数据源页面。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心

    2. 进入工作空间管理中心页面后,单击左侧导航栏的数据源 > 数据源列表,进入数据源页面。

  2. 单击新增数据源,数据源配置要点如下,其他参数可保持默认值。

    根据StarRocks实例与DataWorks资源组的网络连通情况,选择对应的方式创建数据源。具体网络连通方案,请参见网络连通方案

    内网连通

    关键参数

    说明

    配置模式

    选择阿里云实例模式

    所属云账号

    • 如果EMR Serverless StarRocks实例与DataWorks属于同一账号,则选择当前阿里云主账号

    • 如果EMR Serverless StarRocks实例属于其他阿里云账号,则选择其他阿里云主账号,选择其他阿里云主账号后,还需配置对方阿里云主账号UID对方RAM角色,对方RAM角色配置的更多信息,请参见跨账号授权配置

    地域

    选择EMR Serverless StarRocks实例所在的地域。

    实例

    选择具体Serverless版的StarRocks实例。

    数据库名称

    待连接使用的数据库名称。您可以通过EMR StarRocks Manager连接实例后,在元数据管理中查看。

    用户名/密码

    实例的用户名和密码。

    创建StarRocks实例默认创建一个admin用户,密码为创建实例时自定义的密码。

    连接配置

    您需要测试数据源与购买的资源组的连通性,连通状态为可连通表明数据源与资源组间网络是连通的。

    公网连通

    关键参数

    说明

    配置模式

    选择连接串模式

    主机地址/IP

    EMR Serverless StarRocks实例中FE的公网地址

    image

    端口

    EMR Serverless StarRocks实例中FE的查询端口(默认为9030)。

    Load URL

    StarRocks FE的地址用于Streamload,可以为多个FE地址,形如FE公网地址:FE的HTTP端口,使用逗号分割。

    数据库名称

    待连接使用的数据库名称。您可以通过EMR StarRocks Manager连接实例后,在元数据管理中查看。

    image

    用户名/密码

    实例的用户名和密码。

    创建StarRocks实例默认创建一个admin用户,密码为创建实例时自定义的密码。

    连接配置

    您需要测试数据源与购买的资源组的连通性,连通状态为可连通表明数据源与资源组间网络是连通的。

数据集成

DataWorks支持同步多种数据源的数据至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以离线同步一个MySQL数据至EMR Serverless StarRocks表中为例,为您介绍操作要点。

说明

StarRocks数据源同步任务的更多配置细节,请参见StarRocks数据源

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 创建离线同步节点,设置数据来源为MySQL,数据去向为StarRocks数据源。

    image.png

  3. 选择资源组后,并分别测试与来源数据源、去向数据源的连通性。

  4. 设置调度周期,提交发布节点后周期执行任务。

    完成调试后,您可以单击侧边栏的调度配置,配置调度周期、重跑策略等调度参数,设置任务使用的资源组,完成后单击提交发布按钮。

数据开发与调度运维

对于需要周期调度的EMR Serverless StarRocks任务,您可以在DataStudio模块中创建StarRocks节点,选择已经连接到的StarRocks数据源,即可编写EMR Serverless StarRocks SQL任务,并设置调度周期来周期执行。操作步骤要点如下:

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 在DataStudio中创建StarRocks节点,选择已经连接到的StarRocks的数据源,即可编写EMR Serverless StarRocks SQL任务。

    image.png

  3. 在DataStudio调试EMR Serverless StarRocks SQL任务时,您需要选中待调试的SQL命令并单击运行按钮,选中资源组后进行调试。

  4. 设置调度周期,提交发布节点后周期执行任务。

    完成调试后,您可以单击侧边栏的调度配置,配置调度周期、重跑策略等调度参数,设置任务使用的资源组,完成后单击提交发布按钮。

数据分析

您可以使用DataWorks的数据分析子模块,对EMR Serverless StarRocks表数据进行快速分析,操作要点如下。

  1. 进入SQL查询页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据分析 > SQL查询,在下拉框中选择对应工作空间后单击进入SQL查询

  2. 单击左边侧边栏的image图标,单击更多 > 系统管理,进入系统管理页面,设置StarRocks类的查询资源组为任务使用的资源组。

    image.png

  3. 回到SQL查询页面,在右上角切换引擎类型为StarRocks,并选择数据源,即可编辑查询语句并运行,进行EMR Serverless StarRocks数据分析。

    image.png

数据服务

数据服务支持生成StarRocks数据源类型的API。

  1. 进入数据服务页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据服务,在下拉框中选择对应工作空间后单击进入数据服务

  2. 生成一个API,并配置API参数。

    数据服务支持向导模式和脚本模式两种编辑场景,脚本模式支持根据查询SQL语句自动生成API的请求参数和返回参数。以下以向导模式为例为您示例操作要点。

    image.png

    选择数据源类型为StarRocks,选择创建的StarRocks数据源后,选择对应的表,根据界面选择API的请求参数、返回参数等API配置。

  3. 单击右边侧边栏的服务资源组,配置资源组为独享数据服务资源组。

    image.png

  4. 测试API成功后,提交并发布API。

数据地图

数据地图模块支持对StarRocks数据的元数据采集、搜索和表详情页。

元数据采集

  1. 进入数据地图页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据目录 > 数据地图,在右侧页面中单击进入数据地图

  2. 在左侧导航栏单击image图标,然后单击StarRocks模块右上角的管理按钮。

  3. 切换至未采集列表页签,在操作列单击元数据采集

  4. 配置资源组名称测试连通性通过并设置采集计划后,单击确认,完成元数据采集配置。

    image

    说明
    • 元数据采集的更多信息,请参见元数据采集

    • 仅支持Serverless资源组运行该任务。

搜索

  1. 进入数据地图页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据目录 > 数据地图,在右侧页面中单击进入数据地图

  2. 在左侧导航栏单击image图标,数据源选择StarRocks,然后即可在顶部根据不同类型数据源搜索表。

    说明

    搜索的更多信息,请参见通用数据查询与管理

    image

表详情

  1. 进入数据地图页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据目录 > 数据地图,在右侧页面中单击进入数据地图

  2. 在数据地图首页或搜索中找到目标表后,单击表名,进入表详情页。

  3. 在表详情页即可查看表基础信息技术信息业务信息明细信息产出信息血缘信息等。

    说明
    • 表详情的更多信息,请参见通用数据查询与管理

    • StarRocks Serverless集群的3.1.13版本、3.2.9版本及以后的版本支持开启元数据、血缘分析能力,具体配置方法,请参见查看血缘

    image