DataWorks支持StarRocks数据源,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、开发、分析、数据服务等功能。本文为您介绍EMR Serverless StarRocks在DataWorks上的操作流程。
背景信息
了解EMR Serverless StarRocks
StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,致力于构建极速和统一分析体验。
EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致的性能和丰富的OLAP场景模型,包括OLAP多维分析、数据湖分析、高并发查询以及实时数据分析。
更多关于StarRocks、EMR Serverless StarRocks的介绍请参见什么是EMR Serverless StarRocks。
也可查找钉钉群号:24010016636,加入EMR Serverless StarRocks交流钉钉群。
了解DataWorks on EMR Serverless StarRocks
DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据服务上的极速表现,全面助力StarRocks在各类业务场景上的使用。
前提条件
已开通DataWorks并创建工作空间。操作详情请参见开通DataWorks服务。
已购买资源组并完成资源组的空间绑定、网络等配置。详情请参见资源组管理。
已创建EMR Serverless StarRocks实例,操作详情请参见快速使用EMR Serverless StarRocks。
说明创建完成StarRocks实例后,您可以通过在EMR控制台查看实例信息,并通过EMR StarRocks Manager连接实例查看数据库、表等信息。
已将DataWorks资源组的白名单IP地址添加至EMR Serverless StarRocks实例的白名单中。
添加EMR Serverless StarRocks实例白名单的操作入口如下。
创建数据源
在DataWorks上使用EMR Serverless StarRocks时,您需要先创建StarRocks类型的数据源,对接已创建的EMR Serverless StarRocks数据库,以便后续在DataWorks的各个子模块中使用EMR Serverless StarRocks。
数据源介绍详情请参见StarRocks数据源,数据源的创建入口及配置要点如下。
您也可以创建MySQL数据源,通过在DataWorks创建MySQL数据源的方式,封装兼容MySQL生态的StarRocks数据源,完成StarRocks数据源支持的操作。更多信息,请参见MySQL数据源。
进入数据源页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的管理中心,在下拉框中选择对应工作空间后单击进入管理中心。
进入工作空间管理中心页面后,单击左侧导航栏的数据源,进入数据源页面。
单击新增数据源,数据源配置要点如下,其他参数可保持默认值。
说明StarRocks数据源和MySQL数据源都可以实现对EMR Serverless StarRocks的访问使用,两种方式任选其一即可,本文以StarRocks数据源为例。
配置要点
StarRocks数据源
MySQL数据源
数据源类型
不涉及
需选择连接串模式。
JDBC URL
配置格式为:jdbc:mysql://<ip>:<port>/<dbname>
其中:
<ip>、<port>为EMR Serverless StarRocks实例中FE地址、FE的查询端口(默认为9030)。
<dbname>为EMR Serverless StarRocks实例中的数据库名称,您可以通过EMR StarRocks Manager连接实例后,在元数据管理中查看。
Load URL
StarRocks FE的地址用于Streamload,可以为多个FE地址,形如
FE地址:FE的HTTP端口
,使用逗号分割。不涉及
用户名&密码
实例的用户名和密码。
创建EMR Serverless StarRocks实例默认创建一个admin用户,密码为创建实例时自定义的密码。
资源组连通性
您需要测试数据源与购买的资源组的连通性,连通状态为可连通表明数据源与资源组间网络是连通的。
数据集成
DataWorks支持同步多种数据源的数据至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以离线同步一个MySQL数据至EMR Serverless StarRocks表中为例,为您介绍操作要点。
StarRocks数据源同步任务的更多配置细节,请参见StarRocks数据源。
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
创建离线同步节点,设置数据来源为MySQL,数据去向为StarRocks数据源。
选择资源组后,并分别测试与来源数据源、去向数据源的连通性。
设置调度周期,提交发布节点后周期执行任务。
完成调试后,您可以单击侧边栏的调度配置,配置调度周期、重跑策略等调度参数,设置资源组为独享资源组,完成后单击提交、发布按钮。
数据开发与调度运维
对于需要周期调度的EMR Serverless StarRocks任务,您可以在DataStudio模块中创建StarRocks节点,选择已经连接到的StarRocks数据源,即可编写EMR Serverless StarRocks SQL任务,并设置调度周期来周期执行。操作步骤要点如下:
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
在DataStudio中创建StarRocks节点,选择已经连接到的StarRocks的数据源,即可编写EMR Serverless StarRocks SQL任务。
在DataStudio调试EMR Serverless StarRocks SQL任务时,您需要选中待调试的SQL命令并单击运行按钮,选中资源组后进行调试。
设置调度周期,提交发布节点后周期执行任务。
完成调试后,您可以单击侧边栏的调度配置,配置调度周期、重跑策略等调度参数,设置资源组为独享资源组,完成后单击提交、发布按钮。
数据分析
您可以使用DataWorks的数据分析子模块,对EMR Serverless StarRocks表数据进行快速分析,操作要点如下。
进入SQL查询页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入SQL查询。
单击左边侧边栏的系统管理,设置StarRocks类的查询资源组为独享资源组。
回到SQL查询页面,在右上角切换引擎类型为StarRocks,并选择数据源,即可编辑查询语句并运行,进行EMR Serverless StarRocks数据分析。
数据服务
数据服务支持生成StarRocks数据源类型的API。
您也可以通过在DataWorks创建MySQL数据源的方式,封装兼容MySQL生态的StarRocks类型API。
进入数据服务页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据服务,在下拉框中选择对应工作空间后单击进入数据服务。
生成一个API,并配置API参数。
数据服务支持向导模式和脚本模式两种编辑场景,脚本模式支持根据查询SQL语句自动生成API的请求参数和返回参数。以下以向导模式为例为您示例操作要点。
选择数据源类型为StarRocks,选择创建的StarRocks数据源后,选择对应的表,根据界面选择API的请求参数、返回参数等API配置。
单击右边侧边栏的服务资源组,配置资源组为独享数据服务资源组。
测试API成功后,提交并发布API。
数据地图
数据地图模块支持对StarRocks数据的元数据采集、搜索和表详情页。
该功能白名单用户可见,如需使用,请联系技术支持申请白名单。
元数据采集
进入数据地图页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
在左侧导航栏单击元数据采集,然后单击StarRocks模块右上角的管理。
切换至未采集列表页签,在操作列单击元数据采集。
配置资源组名称、测试连通性通过并设置采集计划后,单击确认,完成元数据采集配置。
说明元数据采集的更多信息,请参见元数据采集。
资源组请选择独享调度资源组。
2024年02月01日之前购买的资源组,如果在资源组与数据源网络已连通的情况下,此处元数据采集显示连通性测试不通过,请联系技术支持升级资源组版本后,再进行尝试。
搜索
进入数据地图页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
在左侧导航栏单击搜索,数据源选择StarRocks,然后即可在顶部根据不同类型进行搜索表。
说明搜索的更多信息,请参见通用数据查询与管理。
表详情
进入数据地图页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
在数据地图首页或搜索中找到目标表后,单击表名,进入表详情页。
在表详情页即可查看表基础信息、技术信息、业务信息及明细信息等。
说明表详情的更多信息,请参见通用数据查询与管理。
- 本页导读 (1)