通过Spark SQL读写C-Store数据

云原生数据仓库 AnalyticDB MySQL 版集群支持通过Spark SQL在线或离线读写C-Store表数据。本文主要介绍通过Spark SQL在线或离线读写C-Store表数据的具体方法。

前提条件

  • 集群的产品系列为企业版、基础版或湖仓版

    说明
    • 湖仓版集群存储预留资源需大于0 ACU。

    • 企业版集群预留资源需大于0 ACU。

    • 基础版集群预留资源需大于0 ACU。

  • 已在企业版、基础版或湖仓版集群中创建Job型资源组。具体操作,请参见新建资源组

  • 已创建企业版、基础版或湖仓版集群的数据库账号。

步骤一:进入数据开发

  1. 登录云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表,在企业版、基础版或湖仓版页签下,单击目标集群ID。

  2. 在左侧导航栏,单击作业开发 > SQL开发

  3. SQLConsole窗口,选择Spark引擎和Job型资源组。

步骤二:创建库和C-Store表

说明

您可以选择批处理或交互式执行任意一种方式执行以下SQL语句。详情请参见Spark SQL执行方式

  1. 执行以下语句,创建数据库。

    CREATE DATABASE spark_create_adb_db_test;
  2. 执行以下语句,创建C-Store表。Spark SQL建表语法详情请参见Spark SQL创建C-Store表

    CREATE TABLE spark_create_adb_db_test.test_adb_tbl (
      id int,
      name string COMMENT 'test_name',
      age int
    ) using adb TBLPROPERTIES('primaryKey'='id,age',
                    'distributeType'='HASH', 
                    'distributeColumns'='id', 
                    'partitionType'='value', 
                    'partitionColumn'='age',   
                    'partitionCount'='120'     
                   );

步骤三:读写C-Store表数据

说明
  • 您可以选择批处理或交互式执行任意一种方式执行以下SQL语句。详情请参见Spark SQL执行方式

  • 执行Spark SQL语句,只返回执行成功或者失败,不返回数据。您可以在Spark Jar开发页面应用列表页签中的日志查看表数据。详情请参见查看Spark应用信息

离线读写数据时,仅需选择Spark引擎和Job型资源组,无需配置其他参数;在线读写数据时,需通过SET命令设置执行SQL语句的资源组,且资源组类型必须为Interactive型。

离线读写数据

重要

离线读写数据需注意以下内容:

  • 不支持通过Spark SQL更新和删除C-Store表数据。

  • 查询热数据时,需要先使用XIHE引擎执行如下SQL修改相关配置项,再执行SQL查询语句,否则会导致SQL执行失败。配置项如下:

    SET adb_config CSTORE_HOT_TABLE_ALLOW_SINGLE_REPLICA_BUILD=true;
    SET adb_config ELASTIC_ENABLE_HOT_PARTITION_HAS_HDD_REPLICA=true;
    SET adb_config ELASTIC_PRODUCT_ENABLE_MIXED_STORAGE_POLICY=true;

    修改配置项后需进行强制BUILD,详情请参见BUILD

  1. 写入C-Store表数据。

    AnalyticDB for MySQL支持通过INSERT OVERWRITE语句离线写入数据到C-Store表。您可以选择以下任意一种方式向C-Store表写入数据:

    • 方式一:INSERT OVERWRITE静态分区写入

      INSERT OVERWRITE spark_create_adb_db_test.test_adb_tbl partition(age=10) VALUES (1, 'bom');
    • 方式二:INSERT OVERWRITE动态分区写入

      INSERT OVERWRITE spark_create_adb_db_test.test_adb_tbl partition (age) VALUES (1, 'bom', 10);
  2. 读取C-Store表数据。

    SELECT * FROM spark_create_adb_db_test.test_adb_tbl;

在线读写数据

AnalyticDB for MySQL支持通过INSERT INTO语句在线写入数据到C-Store表。

-- 集群的数据库账号、密码以及内网地址
conf spark.adb.username=user;
conf spark.adb.password=password;
conf spark.adb.endpoint=amv-bp1a74zh1aqi2a6910000****.ads.aliyuncs.com:3306;
-- 开启ENI访问
SET spark.adb.eni.enabled=true;
SET spark.adb.eni.vswitchId=vsw-bp12ldm83z4zu9k4d****;
SET spark.adb.eni.securityGroupId=sg-bp1cdm3acizrgq6x****;
-- 使用JDBC模式
SET spark.adb.useJdbc = true;
-- 设置执行SQL的在线资源组
SET spark.adb.resourceGroup=user_default;
-- 写入数据
INSERT INTO spark_create_adb_db_test.test_adb_tbl VALUES (1, 'adb', 20);
--读取数据
SELECT * FROM spark_create_adb_db_test.test_adb_tbl;

参数说明:

参数

说明

spark.adb.username

集群的数据库账号。

spark.adb.password

数据库账号的密码。

spark.adb.endpoint

集群的内网地址和端口。格式为amv-bp1a74zh1aqi2a6910000****.ads.aliyuncs.com:3306

spark.adb.eni.enabled

开启ENI访问。

访问数据时,需将spark.adb.eni.enabled参数设置为true。

spark.adb.eni.vswitchId

集群所属的交换机ID。

spark.adb.eni.securityGroupId

集群的安全组ID。您可以选择已有安全组或新建安全组。

重要

安全组需和企业版、基础版或湖仓版集群属于同一VPC。

spark.adb.useJdbc

是否使用JDBC方式访问数据。取值:

  • true:是。

  • false(默认值):否。

在线写入数据时需配置为true

spark.adb.resourceGroup

设置执行SQL语句的Interactive型资源组。

说明

创建企业版、基础版或湖仓版集群时,会默认创建一个名为user_default的Interactive型资源组,您可以选择该资源组或新建Interactive型资源组。新建资源组的具体方法,请参见新建资源组

Spark配置项

通过Spark SQL读写C-Store表时,支持配置如下配置项:

配置项

说明

默认值

spark.adb.write.batchSize

单批次写入数据的条数。取值范围为大于0的正整数。

说明

仅在线写入数据时,支持配置该参数。

600

spark.adb.write.arrow.maxMemoryBufferSize

写入最大内存缓冲大小。取值范围为大于0的正整数,单位为MB。

说明

仅离线写入数据时,支持配置该参数。

1024 MB

spark.adb.write.arrow.maxRecordSizePerBatch

单批次写入数据的最大记录条数。取值范围为大于0的正整数。

说明

仅离线写入数据时,支持配置该参数。

500