DataWorks的StarRocks数据源为您提供读取和写入StarRocks的双向通道,支持通过StarRocks节点进行任务开发和周期性调度,以及与其他作业的集成操作。本文为您介绍如何通过DataWorks连接StarRocks实例。
前提条件
- 已开通DataWorks并创建项目,详情请参见开通DataWorks服务。 
- 已购买并完成DataWorks资源组的空间绑定、网络等配置,详情请参见资源组管理。 
- 已创建EMR Serverless StarRocks实例,详情请参见创建实例。 
操作步骤
步骤一:网络准备
为保证资源组网络连通性,您需要提前将后续要使用的DataWorks资源组的IP地址添加至EMR Serverless StarRocks实例的内网白名单中。
步骤二:创建StarRocks数据源
- 进入数据集成页面。 - 登录DataWorks控制台,切换至目标地域,单击左侧导航栏的,在下拉框中选择对应工作空间后单击进入数据集成。 
- 在左侧导航栏单击数据源,然后单击新增数据源。 
- 新增StarRocks数据源。 - 在新增数据源的搜索栏中,输入并选择StarRocks数据源。 
- 在新增StarRocks数据源对话框中,配置以下基础信息,其余参数保持默认值即可。  - 参数 - 说明 - 数据源名称 - 您已自定义。本示例为StarRocks。 - 配置模式 - 选择阿里云实例模式。 - 内网连接:本文使用的是内网连接方式,需确保DataWorks资源组与StarRocks实例处于同一VPC。 
- 公网连接:选择连接串模式。如果您需要使用公网连接,更多参数信息请参见StarRocks数据源。 
 - 地域 - 选择StarRocks实例所在的地域。例如,华东1(杭州)。 - 实例 - 选择已创建的StarRocks实例。 - 数据库名称 - 指定要连接的数据库名称。您可以通过以下方式获取: - 您可以通过EMR StarRocks Manager连接StarRocks实例后,在元数据管理中查看现有数据库。 
- 您也可以直接使用StarRocks实例中内置的数据库(例如,information_schema)。 
 说明- 在DataWorks中编写SQL代码时,若需跨数据库访问表,需确保当前用户具有目标数据库的访问权限,并使用 - <数据库名>.<表名>格式访问。- 用户名和密码 - StarRocks实例的用户名和密码。 - 默认管理员用户为 - admin,密码为创建实例时自定义的密码。如果忘记该密码,可以进行重置,详情请参见如何重置实例的密码?
 
- 在连接配置区域,找到工作空间已绑定的资源组,单击连通状态列的测试连通性。 - 如果测试资源组连通性状态为可连通,即完成新增数据源的创建。 
- 如果显示无法连通,表示资源组与数据源无法连通,后续相应数据源任务将无法正常执行,此时您需要根据右侧弹出的连通性诊断工具窗口,自助解决连通性问题,连通性诊断工具会提示目前连通失败的原因,请根据提示进行修改调整。 
 
- 单击完成。 
步骤三:创建StarRocks节点
StarRocks节点用于编写、调试及调度SQL任务,创建后可在调度配置中设置执行周期。
- 进入数据开发页面。 - 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在下拉框中选择对应工作空间后单击进入数据开发。 
- 单击目标业务流程,右键选择。 
- 在新建节点对话框输入节点名称,单击确认,节点创建完成,您可在节点中进行对应任务的开发与配置。 
步骤四:开发StarRocks任务
- 在数据开发页面,从数据源下拉列表中选择已创建的StarRocks数据源。 
- 编写并运行SQL代码。 - 根据您的需求编写并运行SQL代码,选择运行需使用的调度资源组。本文通过以下两个示例展示如何开发StarRocks任务: - 示例1:创建数据库 - CREATE DATABASE IF NOT EXISTS load_test;- 执行成功后,您可以在EMR Serverless StarRocks页面验证结果。 - 在SQL Editor中执行以下命令,查看已创建的数据库。 - SHOW DATABASES;- 如果 - load_test数据库出现在结果列表中,则说明创建成功。 
 
- 示例2:查询StarRocks数据库中所有基本表信息 - SELECT * FROM information_schema.tables WHERE table_type = 'BASE TABLE';- 执行上述查询后,返回的结果可能如下所示。  
 
相关文档
如需通过StarRocks节点进行任务开发和周期性调度,请参见StarRocks节点。