数据集成

云数据库 SelectDB 版的数据集成是用于将外部数据导入实例数据库的可视化工具。本文介绍如何使用云数据库 SelectDB 版的数据集成。

前提条件

  • 已创建云数据库 SelectDB 版实例。具体操作,请参见创建实例

  • 实例版本大于等于3.0.7。

操作步骤

  1. 登录云数据库 SelectDB 控制台

  2. 在页面左上角,选择实例所在地域。

  3. 实例列表页面,单击目标实例ID,进入到实例详情页面。

  4. 单击页面右上角的数据开发与管理

    说明

    首次使用数据开发与管理,系统会提示将您本地公网IP添加到实例白名单分组webui_whitelist中,请仔细阅读,单击确定

  5. 单击下拉列表中的数据集成

    说明

    首次使用数据集成时,如果您还没有登录过WebUI系统,页面则会重定向到WebUI登录页面。

    • 您可以使用admin账号登录WebUI系统。

    • 如果您不知道或者忘记了admin账号的密码,可以进行密码重置操作。具体操作,请参见重置账号密码

  6. 集成页面,您可以进行以下操作。

    如果您尚未创建任何集成数据的任务,在上一步完成后,将进入Stage集成页面。在该页面,您只能选择集成任务类型,进行创建集成任务。

    • 创建集成任务。

      样例数据

      样例数据是数据分析数据库性能的基准测试数据,您可以通过以下步骤,进行新建样例数据

      1. 选择样例数据类型。

        单击页面右上角的新建,进入Stage 集成页面,根据需求,选择样例数据类型。

        样例数据名称

        样例数据说明

        ClickBench

        ClickBench数据集。

        TPC-H

        TPC-H数据集。

        Github Demo

        Github Event数据集。

        SSB-FLAT

        SSB-FLAT数据集。

      2. 新建集成页面,填写以下参数,单击确认并导入按钮。

        参数名称

        参数说明

        示例

        集成名称

        数据集成任务名称。

        test

        注释

        数据集成任务注释。

        test comment

        集群

        指定使用哪个集群执行数据集成任务。

        new_cluster

        样例数据大小

        选择样例数据大小。

        1GB等

      对象存储(OSS)

      1. 选择集成类型。

        单击页面右上角的新建,进入Stage 集成页面,单击对象存储

      2. 配置参数。

        在新建集成页面,填写以下参数后,单击确定

        参数名称

        参数说明

        示例

        集成名称

        数据集成任务名称。

        test

        注释

        数据集成任务注释。

        test comment

        Bucket

        OSS Bucket名称。

        test_bucket_name

        默认文件路径

        文件在OSS中的默认路径

        访问授权

        访问OSS的授权方式。

        Access Key

        Access Key

        阿里云账号Access Key。

        akdemo

        Secret Key

        阿里云账号Secret Key。

        skdemo

        高级配置

        设置集成文件与导入文件时的默认属性。

        文件设置

        设置集成文件的属性。

        文件类型

        OSS上文件类型。

        参数值:JSON、ORC、CSV、Parquet和系统推荐。

        JSON

        压缩方式

        OSS上文件压缩方式。

        gz

        列分隔符

        OSS上文件中数据列分隔符。

        \t

        行分隔符

        OSS上文件中数据行分隔符。

        \n

        文件大小

        集成OSS上文件的大小约束。

        不限

        导入设置

        设置文件集成导入时的默认操作。

        遇到错误

        继续导入:遇到错误继续导入。

        终止导入:遇到错误终止导入。

        自定义:自定义遇到错误继续导入的策略。

        终止导入

        严格模式

        开启:过滤掉在列转换中错误的数据。这里的错误数据是指:

        • 原始数据并不为 null,而在进行列类型转换后结果为 null 的这一类数据,但不包括用函数计算得出的 null 值。

        • 对于导入的某列类型包含范围限制的,如果原始数据能正常通过类型转换,但无法通过范围限制的,严格模式对其也不产生影响。例如:如果类型是 decimal(1,0),原始数据为 10,则属于可以通过类型转换但不在列声明的范围内。针对这种数据,严格模式对其不产生影响。

        关闭:不会过滤掉在列转换中错误的数据。

        开启

    • 查询集成任务:在单击集成页面右上角搜索图标,在搜索框中填写目标集成任务名称,进行联动查询。

    • 删除集成任务:在集成页面的集成任务列表中,找到目标集成任务,单击操作列的删除图标。

      说明
      • 删除集成任务不会对已经导入的数据产生影响,但可能会对您正在导入的数据产生影响。

      • 删除的集成任务无法恢复。

相关API

ResetAccountPassword - 重置账号密码

DescribeSecurityIPList - 查询实例白名单IP

ModifySecurityIPList - 修改白名单

相关文档

新建实例

重置账号密码

设置白名单