云数据库 SelectDB 版的数据集成是用于将外部数据导入实例数据库的可视化工具。本文介绍如何使用云数据库 SelectDB 版的数据集成。
前提条件
已创建云数据库 SelectDB 版实例。具体操作,请参见创建实例。
实例版本大于等于3.0.7。
操作步骤
在页面左上角,选择实例所在地域。
在实例列表页面,单击目标实例ID,进入到实例详情页面。
单击页面右上角的数据开发与管理。
说明首次使用数据开发与管理,系统会提示将您本地公网IP添加到实例白名单分组webui_whitelist中,请仔细阅读,单击确定。
单击下拉列表中的数据集成。
说明首次使用数据集成时,如果您还没有登录过WebUI系统,页面则会重定向到WebUI登录页面。
您可以使用admin账号登录WebUI系统。
如果您不知道或者忘记了admin账号的密码,可以进行密码重置操作。具体操作,请参见重置账号密码。
在集成页面,您可以进行以下操作。
如果您尚未创建任何集成数据的任务,在上一步完成后,将进入Stage集成页面。在该页面,您只能选择集成任务类型,进行创建集成任务。
创建集成任务。
样例数据
样例数据是数据分析数据库性能的基准测试数据,您可以通过以下步骤,进行新建样例数据。
选择样例数据类型。
单击页面右上角的新建,进入Stage 集成页面,根据需求,选择样例数据类型。
样例数据名称
样例数据说明
ClickBench
ClickBench数据集。
TPC-H
TPC-H数据集。
Github Demo
Github Event数据集。
SSB-FLAT
SSB-FLAT数据集。
在新建集成页面,填写以下参数,单击确认并导入按钮。
参数名称
参数说明
示例
集成名称
数据集成任务名称。
test
注释
数据集成任务注释。
test comment
集群
指定使用哪个集群执行数据集成任务。
new_cluster
样例数据大小
选择样例数据大小。
1GB等
对象存储(OSS)
选择集成类型。
单击页面右上角的新建,进入Stage 集成页面,单击对象存储。
配置参数。
在新建集成页面,填写以下参数后,单击确定。
参数名称
参数说明
示例
集成名称
数据集成任务名称。
test
注释
数据集成任务注释。
test comment
Bucket
OSS Bucket名称。
test_bucket_name
默认文件路径
文件在OSS中的默认路径
无
访问授权
访问OSS的授权方式。
Access Key
Access Key
阿里云账号Access Key。
akdemo
Secret Key
阿里云账号Secret Key。
skdemo
高级配置
设置集成文件与导入文件时的默认属性。
无
文件设置
设置集成文件的属性。
无
文件类型
OSS上文件类型。
参数值:JSON、ORC、CSV、Parquet和系统推荐。
JSON
压缩方式
OSS上文件压缩方式。
gz
列分隔符
OSS上文件中数据列分隔符。
\t
行分隔符
OSS上文件中数据行分隔符。
\n
文件大小
集成OSS上文件的大小约束。
不限
导入设置
设置文件集成导入时的默认操作。
无
遇到错误
继续导入:遇到错误继续导入。
终止导入:遇到错误终止导入。
自定义:自定义遇到错误继续导入的策略。
终止导入
严格模式
开启:过滤掉在列转换中错误的数据。这里的错误数据是指:
原始数据并不为 null,而在进行列类型转换后结果为 null 的这一类数据,但不包括用函数计算得出的 null 值。
对于导入的某列类型包含范围限制的,如果原始数据能正常通过类型转换,但无法通过范围限制的,严格模式对其也不产生影响。例如:如果类型是 decimal(1,0),原始数据为 10,则属于可以通过类型转换但不在列声明的范围内。针对这种数据,严格模式对其不产生影响。
关闭:不会过滤掉在列转换中错误的数据。
开启
查询集成任务:在单击集成页面右上角搜索图标,在搜索框中填写目标集成任务名称,进行联动查询。
删除集成任务:在集成页面的集成任务列表中,找到目标集成任务,单击操作列的删除图标。
说明删除集成任务不会对已经导入的数据产生影响,但可能会对您正在导入的数据产生影响。
删除的集成任务无法恢复。