StarRocks数据源

StarRocks数据源为您提供读取和写入StarRocks的双向通道,本文为您介绍DataWorksStarRocks数据同步的能力支持情况。

支持的版本

  • 支持EMR Serverless StarRocks 2.53.1版本。

  • 支持EMR on ECS:StarRocks 2.1版本。详情请参见:StarRocks概述

  • 支持社区版StarRocks。社区版StarRocks请参见:StarRocks官方网站

    说明
    • 由于DataWorks仅支持内网链接StarRocks,社区版StarRocks需部署在EMR on ECS上。

    • 社区版StarRocks的开放性较强,若在数据源使用过程中出现适配性问题,欢迎提交工单反馈。

支持的字段类型

支持大部分StarRocks类型,包括数值类型、字符串类型、日期类型。

数据同步前准备

为保证资源组网络连通性,您需要提前将后续要使用的DataWorks资源组的IP地址添加至EMR Serverless StarRocks实例的内网白名单中,同时,还需要允许该网段访问9030、8030、8040端口。

  • DataWorks资源组的白名单IP地址请参见:添加白名单

  • 添加EMR Serverless StarRocks实例白名单的操作入口如下。

    image.png

创建数据源

在进行数据同步任务开发时,您需要在DataWorks上创建一个对应的数据源,操作流程请参见创建并管理数据源详细的配置参数解释可在配置界面查看对应参数的文案提示

创建StarRocks数据源时,支持使用阿里云实例模式和连接串模式:

  • 阿里云实例模式支持直接选择已在阿里云同VPC下创建的StarRocks实例。

  • 连接串模式支持根据StarRocks的主机地址/IP、端口、Load URL等信息进行连接,支持同VPC下的内网实例,或公网地址连接。

    说明

    Serverless资源组默认不具备公网访问能力,使用公网地址连接StarRocks实例时,需要为绑定的VPC配置公网NAT网关EIP后,才支持公网访问数据源。

    如果使用的是阿里云emr StarRocks Serverless,主机地址/IP使用内网地址公网地址,端口使用查询端口

    • FE信息:您可以在实例详情页获取。

      image.png

    • 数据库:使用EMR StarRocks Manager连接实例后,可以在SQL Editor或者元数据管理查看到对应的数据库。

      image.png

      说明

      如果需要创建数据库,可以直接在SQL Editor里执行SQL命令进行创建。

数据同步任务开发

数据同步任务的配置入口和通用配置流程可参见下文的配置指导。

单表离线同步任务配置指导

附录:脚本Demo与参数说明

离线任务脚本配置方式

如果您配置离线任务时使用脚本模式的方式进行配置,您需要按照统一的脚本格式要求,在任务脚本中编写相应的参数,详情请参见通过脚本模式配置离线同步任务,以下为您介绍脚本模式下数据源的参数配置详情。

Reader脚本Demo

{
    "stepType": "starrocks",
    "parameter": {
        "selectedDatabase": "didb1",
        "datasource": "starrocks_datasource",
        "column": [
            "id",
            "name"
        ],
        "where": "id>100",
        "table": "table1",
        "splitPk": "id"
    },
    "name": "Reader",
    "category": "reader"
}

Reader脚本参数

参数

描述

是否必选

默认值

datasource

StarRocks数据源名称。

selectedDatabase

StarRocks数据库名称。

StarRocks数据源内配置的数据库名称。

column

所配置的表中需要同步的列名集合。

where

筛选条件,在实际业务场景中,往往会选择当天的数据进行同步,将where条件指定为gmt_create>$bizdate

  • where条件可以有效地进行业务增量同步。

  • where语句,包括不提供wherekeyvalue,数据同步均视作同步全量数据。

table

选取的需要同步的表名称。

splitPk

StarRocks Reader进行数据抽取时,如果指定splitPk,表示您希望使用splitPk代表的字段进行数据分片,数据同步因此会启动并发任务进行数据同步,提高数据同步的效能。推荐splitPk用户使用表主键,因为表主键通常情况下比较均匀,因此切分出来的分片也不容易出现数据热点。

Writer脚本Demo

{
    "stepType": "starrocks",
    "parameter": {
        "selectedDatabase": "didb1",
        "loadProps": {
            "row_delimiter": "\\x02",
            "column_separator": "\\x01"
        },
        "datasource": "starrocks_public",
        "column": [
            "id",
            "name"
        ],
        "loadUrl": [
            "1.1.X.X:8030"
        ],
        "table": "table1",
        "preSql": [
            "truncate table table1"
        ],
        "postSql": [
        ],
        "maxBatchRows": 500000,
        "maxBatchSize": 5242880
    },
    "name": "Writer",
    "category": "writer"
}

Writer脚本参数

参数

描述

是否必选

默认值

datasource

StarRocks数据源名称。

selectedDatabase

StarRocks数据库名称。

StarRocks数据源内配置的数据库名称。

loadProps

StarRocks StreamLoad请求参数。使用StreamLoad CSV导入,此处可选择配置导入参数。如果无特殊配置则使用{}。可配置参数包括:

  • column_separator:CSV导入列分隔符,默认\t。

  • row_delimiter:CSV导行分隔符,默认\n。

  • 如果您的数据中本身包含\t、\n,则需自定义使用其他字符作为分隔符,使用特殊字符示例如下:

    {    "column_separator": "\\x01",    "row_delimiter": "\\x02"}

column

所配置的表中需要同步的列名集合。

loadUrl

填写StarRocks FrontEnd IP、Http Port(一般默认是8030),如果有多个FrontEnd节点,可全部配置上,并使用逗号(,)分隔。

table

选取的需要同步的表名称。

preSql

执行数据同步任务之前率先执行的SQL语句。例如,执行前清空表中的旧数据(truncate table tablename)。

postSql

执行数据同步任务之后执行的SQL语句。

maxBatchRows

最大每次写入行数。

500000

maxBatchSize

最大每次写入字节数。

5242880