文档

DataWorks on EMR Serverless StarRocks最佳实践

更新时间:

DataWorks支持StarRocks数据源,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、开发、分析、数据服务等功能。本文为您介绍EMR Serverless StarRocks在DataWorks上的操作流程。

背景信息

了解EMR Serverless StarRocks

StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,致力于构建极速和统一分析体验。

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致的性能和丰富的OLAP场景模型,包括OLAP多维分析、数据湖分析、高并发查询以及实时数据分析。

更多关于StarRocks、EMR Serverless StarRocks的介绍请参见什么是EMR Serverless StarRocks

也可查找钉钉群号:24010016636,加入EMR Serverless StarRocks交流钉钉群。

了解DataWorks on EMR Serverless StarRocks

DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据服务上的极速表现,全面助力StarRocks在各类业务场景上的使用。

单击查看基本概念和主要DataWorks子产品介绍

使用EMR Serverless StarRocks,涉及的主要DataWorks子产品模块、主要概念的简单介绍如下。

基本概念/子产品

简介

参考文档

资源组

您需要使用DataWorks资源组以满足各类任务在DataWorks上运行。

数据源

您需要创建数据源以便在DataWorks上使用该数据源。使用EMR Serverless StarRocks时,您需要创建StarRocks类型的数据源,以便可通过数据源对接EMR Serverless StarRocks进行任务开发与运行。

数据源介绍详情请参见StarRocks数据源

数据集成

DataWorks为您提供数据集成子模块,可实现多种数据源间多种同步场景下的数据同步。

数据集成模块介绍请参见数据集成概述

数据开发与运维中心

DataWorks为您提供数据开发运维中心两个子模块,可实现在数据开发中开发并调试任务,完成后将任务提交发布至运维中心,实现周期性自动运行。

数据分析

DataWorks数据分析可帮助您在线洞察分析、编辑和分享数据。

数据分析概述

数据服务

DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台,旨在为个人、团队与企业提供全面的数据服务与共享能力,帮助用户统一管理面向内外部的API服务。

数据服务概述

数据地图

DataWorks的数据地图是在元数据基础上提供的企业数据目录管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。数据地图可以帮助您更好地查找、理解和使用数据。

数据地图概述

前提条件

  • 已开通DataWorks并创建工作空间。操作详情请参见开通DataWorks服务

  • 已购买资源组并完成资源组的空间绑定、网络等配置。详情请参见资源组管理

  • 已创建EMR Serverless StarRocks实例,操作详情请参见快速使用EMR Serverless StarRocks

    说明

    创建完成StarRocks实例后,您可以通过在EMR控制台查看实例信息,并通过EMR StarRocks Manager连接实例查看数据库、表等信息。

  • 已将DataWorks资源组的白名单IP地址添加至EMR Serverless StarRocks实例的白名单中。

    添加EMR Serverless StarRocks实例白名单的操作入口如下。

    image.png

创建数据源

在DataWorks上使用EMR Serverless StarRocks时,您需要先创建StarRocks类型的数据源,对接已创建的EMR Serverless StarRocks数据库,以便后续在DataWorks的各个子模块中使用EMR Serverless StarRocks。

数据源介绍详情请参见StarRocks数据源,数据源的创建入口及配置要点如下。

说明

您也可以创建MySQL数据源,通过在DataWorks创建MySQL数据源的方式,封装兼容MySQL生态的StarRocks数据源,完成StarRocks数据源支持的操作。更多信息,请参见MySQL数据源

  1. 进入数据源页面。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的管理中心,在下拉框中选择对应工作空间后单击进入管理中心

    2. 进入工作空间管理中心页面后,单击左侧导航栏的数据源,进入数据源页面。

  2. 单击新增数据源,数据源配置要点如下,其他参数可保持默认值。

    说明

    StarRocks数据源和MySQL数据源都可以实现对EMR Serverless StarRocks的访问使用,两种方式任选其一即可,本文以StarRocks数据源为例。

    配置要点

    StarRocks数据源

    MySQL数据源

    数据源类型

    不涉及

    需选择连接串模式

    JDBC URL

    • 配置格式为:jdbc:mysql://<ip>:<port>/<dbname>

    • 其中:

      • <ip><port>为EMR Serverless StarRocks实例中FE地址、FE的查询端口(默认为9030)。

        image.png

      • <dbname>为EMR Serverless StarRocks实例中的数据库名称,您可以通过EMR StarRocks Manager连接实例后,在元数据管理中查看。

        image.png

    Load URL

    StarRocks FE的地址用于Streamload,可以为多个FE地址,形如FE地址:FE的HTTP端口,使用逗号分割。

    不涉及

    用户名&密码

    实例的用户名和密码。

    创建EMR Serverless StarRocks实例默认创建一个admin用户,密码为创建实例时自定义的密码。

    资源组连通性

    您需要测试数据源与购买的资源组的连通性,连通状态为可连通表明数据源与资源组间网络是连通的。

据集成

DataWorks支持同步多种数据源的数据至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以离线同步一个MySQL数据至EMR Serverless StarRocks表中为例,为您介绍操作要点。

说明

StarRocks数据源同步任务的更多配置细节,请参见StarRocks数据源

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 创建离线同步节点,设置数据来源为MySQL,数据去向为StarRocks数据源。

    image.png

  3. 选择资源组后,并分别测试与来源数据源、去向数据源的连通性。

  4. 设置调度周期,提交发布节点后周期执行任务。

    完成调试后,您可以单击侧边栏的调度配置,配置调度周期、重跑策略等调度参数,设置资源组为独享资源组,完成后单击提交发布按钮。

数据开发与调度运维

对于需要周期调度的EMR Serverless StarRocks任务,您可以在DataStudio模块中创建StarRocks节点,选择已经连接到的StarRocks数据源,即可编写EMR Serverless StarRocks SQL任务,并设置调度周期来周期执行。操作步骤要点如下:

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 在DataStudio中创建StarRocks节点,选择已经连接到的StarRocks的数据源,即可编写EMR Serverless StarRocks SQL任务。

    image.png

  3. 在DataStudio调试EMR Serverless StarRocks SQL任务时,您需要选中待调试的SQL命令并单击运行按钮,选中资源组后进行调试。

  4. 设置调度周期,提交发布节点后周期执行任务。

    完成调试后,您可以单击侧边栏的调度配置,配置调度周期、重跑策略等调度参数,设置资源组为独享资源组,完成后单击提交发布按钮。

数据分析

您可以使用DataWorks的数据分析子模块,对EMR Serverless StarRocks表数据进行快速分析,操作要点如下。

  1. 进入SQL查询页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据分析 > SQL查询,在下拉框中选择对应工作空间后单击进入SQL查询

  2. 单击左边侧边栏的系统管理,设置StarRocks类的查询资源组为独享资源组。

    image.png

  3. 回到SQL查询页面,在右上角切换引擎类型为StarRocks,并选择数据源,即可编辑查询语句并运行,进行EMR Serverless StarRocks数据分析。

    image.png

数据服务

数据服务支持生成StarRocks数据源类型的API。

说明

您也可以通过在DataWorks创建MySQL数据源的方式,封装兼容MySQL生态的StarRocks类型API。

  1. 进入数据服务页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据服务,在下拉框中选择对应工作空间后单击进入数据服务

  2. 生成一个API,并配置API参数。

    数据服务支持向导模式和脚本模式两种编辑场景,脚本模式支持根据查询SQL语句自动生成API的请求参数和返回参数。以下以向导模式为例为您示例操作要点。

    image.png

    选择数据源类型为StarRocks,选择创建的StarRocks数据源后,选择对应的表,根据界面选择API的请求参数、返回参数等API配置。

  3. 单击右边侧边栏的服务资源组,配置资源组为独享数据服务资源组。

    image.png

  4. 测试API成功后,提交并发布API。

数据地图

数据地图模块支持对StarRocks数据的元数据采集、搜索和表详情页。

说明

该功能白名单用户可见,如需使用,请联系技术支持申请白名单。

元数据采集

  1. 进入数据地图页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

  2. 在左侧导航栏单击元数据采集,然后单击StarRocks模块右上角的管理

    image

  3. 切换至未采集列表页签,在操作列单击元数据采集

  4. 配置资源组名称测试连通性通过并设置采集计划后,单击确认,完成元数据采集配置。

    image

    说明
    • 元数据采集的更多信息,请参见元数据采集

    • 资源组请选择独享调度资源组。

    • 2024年02月01日之前购买的资源组,如果在资源组与数据源网络已连通的情况下,此处元数据采集显示连通性测试不通过,请联系技术支持升级资源组版本后,再进行尝试。

搜索

  1. 进入数据地图页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

  2. 在左侧导航栏单击搜索,数据源选择StarRocks,然后即可在顶部根据不同类型进行搜索表。

    说明

    搜索的更多信息,请参见通用数据查询与管理

    image

表详情

  1. 进入数据地图页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

  2. 在数据地图首页或搜索中找到目标表后,单击表名,进入表详情页。

  3. 在表详情页即可查看表基础信息技术信息业务信息明细信息等。

    说明

    表详情的更多信息,请参见通用数据查询与管理

    image

  • 本页导读 (1)