DataWorks支持StarRocks数据源,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、开发、分析、数据服务等功能。本文为您介绍EMR Serverless StarRocks在DataWorks上的操作流程。
背景信息
了解EMR Serverless StarRocks
StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,致力于构建极速和统一分析体验。
EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致的性能和丰富的OLAP场景模型,包括OLAP多维分析、数据湖分析、高并发查询以及实时数据分析。
更多关于StarRocks、EMR Serverless StarRocks的介绍请参见什么是EMR Serverless StarRocks。
也可查找钉钉群号:24010016636,加入EMR Serverless StarRocks交流钉钉群。
了解DataWorks on EMR Serverless StarRocks
DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据服务上的极速表现,全面助力StarRocks在各类业务场景上的使用。
前提条件
已开通DataWorks并创建工作空间。操作详情请参见开通DataWorks服务。
已购买资源组并完成资源组的空间绑定、网络等配置。详情请参见资源组管理。
已创建EMR Serverless StarRocks实例,操作详情请参见快速使用存算一体版实例。
说明创建完成StarRocks实例后,您可以通过在EMR控制台查看实例信息,并通过EMR StarRocks Manager连接实例查看数据库、表等信息。
已将DataWorks资源组的白名单IP地址添加至EMR Serverless StarRocks实例的白名单中。
添加EMR Serverless StarRocks实例白名单的操作入口如下。
创建数据源
在DataWorks上使用EMR Serverless StarRocks时,您需要先创建StarRocks类型的数据源,对接已创建的EMR Serverless StarRocks数据库,以便后续在DataWorks的各个子模块中使用EMR Serverless StarRocks。
数据源介绍详情请参见StarRocks数据源,数据源的创建入口及配置要点如下。
进入数据源页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入管理中心。
进入工作空间管理中心页面后,单击左侧导航栏的
,进入数据源页面。
单击新增数据源,数据源配置要点如下,其他参数可保持默认值。
根据StarRocks实例与DataWorks资源组的网络连通情况,选择对应的方式创建数据源。具体网络连通方案,请参见网络连通方案。
内网连通
关键参数
说明
配置模式
选择阿里云实例模式。
所属云账号
如果EMR Serverless StarRocks实例与DataWorks属于同一账号,则选择当前阿里云主账号。
如果EMR Serverless StarRocks实例属于其他阿里云账号,则选择其他阿里云主账号,选择其他阿里云主账号后,还需配置对方阿里云主账号UID和对方RAM角色,对方RAM角色配置的更多信息,请参见跨账号授权配置。
地域
选择EMR Serverless StarRocks实例所在的地域。
实例
选择具体Serverless版的StarRocks实例。
数据库名称
待连接使用的数据库名称。您可以通过EMR StarRocks Manager连接实例后,在元数据管理中查看。
用户名/密码
实例的用户名和密码。
创建StarRocks实例默认创建一个admin用户,密码为创建实例时自定义的密码。
连接配置
您需要测试数据源与购买的资源组的连通性,连通状态为可连通表明数据源与资源组间网络是连通的。
公网连通
关键参数
说明
配置模式
选择连接串模式。
主机地址/IP
EMR Serverless StarRocks实例中FE的公网地址。
端口
EMR Serverless StarRocks实例中FE的查询端口(默认为9030)。
Load URL
StarRocks FE的地址用于Streamload,可以为多个FE地址,形如
FE公网地址:FE的HTTP端口
,使用逗号分割。数据库名称
待连接使用的数据库名称。您可以通过EMR StarRocks Manager连接实例后,在元数据管理中查看。
用户名/密码
实例的用户名和密码。
创建StarRocks实例默认创建一个admin用户,密码为创建实例时自定义的密码。
连接配置
您需要测试数据源与购买的资源组的连通性,连通状态为可连通表明数据源与资源组间网络是连通的。
数据集成
DataWorks支持同步多种数据源的数据至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以离线同步一个MySQL数据至EMR Serverless StarRocks表中为例,为您介绍操作要点。
StarRocks数据源同步任务的更多配置细节,请参见StarRocks数据源。
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
创建离线同步节点,设置数据来源为MySQL,数据去向为StarRocks数据源。
选择资源组后,并分别测试与来源数据源、去向数据源的连通性。
设置调度周期,提交发布节点后周期执行任务。
完成调试后,您可以单击侧边栏的调度配置,配置调度周期、重跑策略等调度参数,设置任务使用的资源组,完成后单击提交、发布按钮。
数据开发与调度运维
对于需要周期调度的EMR Serverless StarRocks任务,您可以在DataStudio模块中创建StarRocks节点,选择已经连接到的StarRocks数据源,即可编写EMR Serverless StarRocks SQL任务,并设置调度周期来周期执行。操作步骤要点如下:
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
在DataStudio中创建StarRocks节点,选择已经连接到的StarRocks的数据源,即可编写EMR Serverless StarRocks SQL任务。
在DataStudio调试EMR Serverless StarRocks SQL任务时,您需要选中待调试的SQL命令并单击运行按钮,选中资源组后进行调试。
设置调度周期,提交发布节点后周期执行任务。
完成调试后,您可以单击侧边栏的调度配置,配置调度周期、重跑策略等调度参数,设置任务使用的资源组,完成后单击提交、发布按钮。
数据分析
您可以使用DataWorks的数据分析子模块,对EMR Serverless StarRocks表数据进行快速分析,操作要点如下。
进入SQL查询页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入SQL查询。
单击左边侧边栏的图标,单击
,进入系统管理页面,设置StarRocks类的查询资源组为任务使用的资源组。回到SQL查询页面,在右上角切换引擎类型为StarRocks,并选择数据源,即可编辑查询语句并运行,进行EMR Serverless StarRocks数据分析。
数据服务
数据服务支持生成StarRocks数据源类型的API。
进入数据服务页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据服务。
生成一个API,并配置API参数。
数据服务支持向导模式和脚本模式两种编辑场景,脚本模式支持根据查询SQL语句自动生成API的请求参数和返回参数。以下以向导模式为例为您示例操作要点。
选择数据源类型为StarRocks,选择创建的StarRocks数据源后,选择对应的表,根据界面选择API的请求参数、返回参数等API配置。
单击右边侧边栏的服务资源组,配置资源组为独享数据服务资源组。
测试API成功后,提交并发布API。
数据地图
数据地图模块支持对StarRocks数据的元数据采集、搜索和表详情页。
元数据采集
进入数据地图页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
在左侧导航栏单击图标,然后单击StarRocks模块右上角的管理按钮。
切换至未采集列表页签,在操作列单击元数据采集。
配置资源组名称、测试连通性通过并设置采集计划后,单击确认,完成元数据采集配置。
说明元数据采集的更多信息,请参见元数据采集。
仅支持Serverless资源组运行该任务。
搜索
进入数据地图页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
在左侧导航栏单击图标,数据源选择StarRocks,然后即可在顶部根据不同类型数据源搜索表。
说明搜索的更多信息,请参见通用数据查询与管理。
表详情
进入数据地图页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
在数据地图首页或搜索中找到目标表后,单击表名,进入表详情页。
在表详情页即可查看表基础信息、技术信息、业务信息、明细信息、产出信息及血缘信息等。