DataWorks支持StarRocks数据源,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、开发、分析、数据服务等功能。本文为您介绍EMR Serverless StarRocks在DataWorks上的操作流程。
背景信息
了解EMR Serverless StarRocks
StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,致力于构建极速和统一分析体验。
EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致的性能和丰富的OLAP场景模型,包括OLAP多维分析、数据湖分析、高并发查询以及实时数据分析。
参加数据开发(Data Studio)公测的工作空间可通过绑定EMR Serverless StarRocks计算资源生成同名数据源,无需通过本文操作创建数据源。
未参加数据开发(Data Studio)公测的工作空间,需参考本文通过创建StarRocks数据源的方式,在DataWorks中使用StarRocks进行开发。
更多关于StarRocks、EMR Serverless StarRocks的介绍请参见什么是EMR Serverless StarRocks。
也可查找钉钉群号:24010016636,加入EMR Serverless StarRocks交流钉钉群。
了解DataWorks on EMR Serverless StarRocks
DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据服务上的极速表现,全面助力StarRocks在各类业务场景上的使用。
前提条件
已开通DataWorks并创建工作空间。操作详情请参见开通DataWorks服务。
已购买资源组并完成资源组的空间绑定、网络等配置。详情请参见资源组管理。
已创建EMR Serverless StarRocks实例,操作详情请参见快速使用存算一体版实例。
说明创建完成StarRocks实例后,您可以通过在EMR控制台查看实例信息,并通过EMR StarRocks Manager连接实例查看数据库、表等信息。
已将DataWorks资源组的白名单IP地址添加至EMR Serverless StarRocks实例的白名单中。
添加EMR Serverless StarRocks实例白名单的操作入口如下。
创建数据源
在DataWorks上使用EMR Serverless StarRocks时,您需要先创建StarRocks类型的数据源,对接已创建的EMR Serverless StarRocks数据库,以便后续在DataWorks的各个子模块中使用EMR Serverless StarRocks。
参加数据开发(Data Studio)公测的工作空间可通过绑定EMR Serverless StarRocks计算资源生成同名数据源,无需通过当前操作创建数据源。
未参加数据开发(Data Studio)公测的工作空间,需参考本文通过创建StarRocks数据源的方式,在DataWorks中使用StarRocks进行开发。
数据源介绍详情请参见StarRocks数据源,数据源的创建入口及配置要点如下。
进入数据源页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入管理中心。
进入工作空间管理中心页面后,单击左侧导航栏的数据源,进入数据源页面。
单击新增数据源,数据源配置要点如下,其他参数可保持默认值。
根据StarRocks实例与DataWorks资源组的网络连通情况,选择对应的方式创建数据源。具体网络连通方案,请参见网络连通方案。
内网连通
关键参数
说明
配置模式
选择阿里云实例模式。
所属云账号
如果EMR Serverless StarRocks实例与DataWorks属于同一账号,则选择当前阿里云主账号。
如果EMR Serverless StarRocks实例属于其他阿里云账号,则选择其他阿里云主账号,选择其他阿里云主账号后,还需配置对方阿里云主账号UID和对方RAM角色,对方RAM角色配置的更多信息,请参见跨账号授权配置。
地域
选择EMR Serverless StarRocks实例所在的地域。
实例
选择具体Serverless版的StarRocks实例。
数据库名称
待连接使用的数据库名称。您可以通过EMR StarRocks Manager连接实例后,在元数据管理中查看。
用户名/密码
实例的用户名和密码。
创建StarRocks实例默认创建一个admin用户,密码为创建实例时自定义的密码。
连接配置
您需要测试数据源与购买的资源组的连通性,连通状态为可连通表明数据源与资源组间网络是连通的。
公网连通
关键参数
说明
配置模式
选择连接串模式。
主机地址/IP
EMR Serverless StarRocks实例中FE的公网地址。
端口
EMR Serverless StarRocks实例中FE的查询端口(默认为9030)。
Load URL
StarRocks FE的地址用于Streamload,可以为多个FE地址,形如
FE公网地址:FE的HTTP端口
,使用逗号分割。数据库名称
待连接使用的数据库名称。您可以通过EMR StarRocks Manager连接实例后,在元数据管理中查看。
用户名/密码
实例的用户名和密码。
创建StarRocks实例默认创建一个admin用户,密码为创建实例时自定义的密码。
连接配置
您需要测试数据源与购买的资源组的连通性,连通状态为可连通表明数据源与资源组间网络是连通的。
数据集成
DataWorks支持同步多种数据源的数据至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以离线同步一个MySQL数据至EMR Serverless StarRocks表中为例,为您介绍操作要点。
StarRocks数据源同步任务的更多配置细节,请参见StarRocks数据源。
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
创建离线同步节点,设置数据来源为MySQL,数据去向为StarRocks数据源。
选择资源组后,并分别测试与来源数据源、去向数据源的连通性。
设置调度周期,提交发布节点后周期执行任务。
完成调试后,您可以单击侧边栏的调度配置,配置调度周期、重跑策略等调度参数,设置任务使用的资源组,完成后单击提交、发布按钮。
数据开发与调度运维
对于需要周期调度的EMR Serverless StarRocks任务,您可以在DataStudio模块中创建StarRocks节点,选择已经连接到的StarRocks数据源,即可编写EMR Serverless StarRocks SQL任务,并设置调度周期来周期执行。操作步骤要点如下:
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
在DataStudio中创建StarRocks节点,选择已经连接到的StarRocks的数据源,即可编写EMR Serverless StarRocks SQL任务。
在DataStudio调试EMR Serverless StarRocks SQL任务时,您需要选中待调试的SQL命令并单击运行按钮,选中资源组后进行调试。
设置调度周期,提交发布节点后周期执行任务。
完成调试后,您可以单击侧边栏的调度配置,配置调度周期、重跑策略等调度参数,设置任务使用的资源组,完成后单击提交、发布按钮。
数据分析
您可以使用DataWorks的数据分析子模块,对EMR Serverless StarRocks表数据进行快速分析,操作要点如下。
进入SQL查询页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,单击进入数据分析页面,单击左侧导航栏的SQL查询进入SQL查询页面。
单击左边侧边栏的
图标,单击 ,进入系统管理页面,设置StarRocks类的查询资源组为任务使用的资源组。
回到SQL查询页面,在右上角切换引擎类型为StarRocks,并选择数据源,即可编辑查询语句并运行,进行EMR Serverless StarRocks数据分析。
数据服务
数据服务支持生成StarRocks数据源类型的API。
进入数据服务页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据服务。
生成一个API,并配置API参数。
数据服务支持向导模式和脚本模式两种编辑场景,脚本模式支持根据查询SQL语句自动生成API的请求参数和返回参数。以下以向导模式为例为您示例操作要点。
选择数据源类型为StarRocks,选择创建的StarRocks数据源后,选择对应的表,根据界面选择API的请求参数、返回参数等API配置。
单击右边侧边栏的服务资源组,配置资源组为独享数据服务资源组。
测试API成功后,提交并发布API。
数据地图
数据地图模块支持对StarRocks数据的元数据采集、搜索和表详情页。
元数据采集
进入数据地图页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
在左侧导航栏单击
图标,然后单击StarRocks模块右上角的管理按钮。
切换至未采集列表页签,在操作列单击元数据采集。
配置资源组名称、测试连通性通过并设置采集计划后,单击确认,完成元数据采集配置。
说明元数据采集的更多信息,请参见元数据采集。
仅支持Serverless资源组运行该任务。
搜索
进入数据地图页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
在左侧导航栏单击
图标,数据源选择StarRocks,然后即可在顶部根据不同类型数据源搜索表。
说明搜索的更多信息,请参见通用数据查询与管理。
表详情
进入数据地图页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
在数据地图首页或搜索中找到目标表后,单击表名,进入表详情页。
在表详情页即可查看表基础信息、技术信息、业务信息、明细信息、产出信息及血缘信息等。