数据导入

更新时间: 2025-04-01 15:50:20

云数据库 SelectDB 版支持多样化的数据导入方式,涵盖原生接口与生态工具,满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到SelectDB的核心接口与工具。

导入选型建议

  • 阿里云生态源数据:DTSDataWorks

  • 非阿里云生态源数据:

  • 大规模数据:

    • 导入接口:Kafka数据源优先选择Routine Load,非Kafka数据源优先选择Stream Load

    • 导入工具:阿里云生态MySQL数据源优先选择DTS,非阿里云生态MySQL数据源与非MySQL数据源优先选择Flink

更多接口与工具概览,请参见下述导入接口导入工具

导入接口

接口方式

特性说明

支持数据格式

适用场景

操作步骤

Stream Load(推荐

  • HTTP协议传输数据。

  • 同步接口,请求结束后立即返回结果。

CSV/JSON/PARQUET/ORC

本地文件/数据流实时或批量导入到SelectDB

Stream Load

Routine Load

实时处理数据流。

CSV/JSON

常驻任务持续从指定的数据源读取数据并导入到SelectDB

说明

目前仅支持Kafka数据源。

Routine Load

Broker Load

  • 单次导入数据量可达百GB级别

  • 异步接口

CSV/PARQUET/ORC

读取OSS、HDFS、S3等远端存储数据导入至SelectDB

Broker Load

OSS Load

  • 内网传输,减少公网带宽消耗。

  • 支持单次百GB级别数据。

CSV/PARQUET/ORC

将阿里云OSS数据导入至SelectDB

OSS Load

Insert Into

insert Into values性能较低,不建议在生产环境中使用。

读取库表数据,不涉及文件格式。

  • Insert Into Values适用于极少量数据导入至SelectDB,且请求频率不高于5分钟一次的场景。

  • Insert Into Select适用于将SelectDB内部数据或外部数据湖数据进行计算处理,并将其导入SelectDB的新表中,其效率较高。

Insert Into

导入工具

工具

工具特点

支持的数据源

增量数据

历史数据

适用场景

操作步骤

DataWorks

全链路管控:集成任务调度、数据监控、血缘分析功能,支持阿里云生态无缝对接

  • MySQL

  • 阿里云Clickhouse

  • StarRocks

不支持

支持

企业级数据集成,需任务编排与监控的复杂数据链路场景

通过DataWorks导入数据

DTS

实时同步:支持秒级延迟数据迁移,提供断点续传、数据校验功能,保障迁移可靠性。

  • MySQL

  • PostgreSQL

支持

支持

跨云/混合云数据库实时同步,需高可靠迁移的场景

通过DTS导入数据

X2Doris

一键迁移:自动同步源端表结构,提供Web可视化界面,简化异构数据源迁移流程。

  • Doris

  • Hive

  • Kudu

  • StarRocks

  • Clickhouse

不支持

支持

从异构数据源迁移至SelectDB,降低迁移复杂度。

通过X2Doris导入数据

Flink

流批一体:支持Exactly-Once语义的实时流处理,集成计算与导入,适配复杂ETL场景。

  • MySQL

  • Kafka

  • Oracle

  • PostgreSQL

  • SQL Server

支持

支持

适用于实时数仓构建,且需流式计算与数据导入一体化的场景。

通过Flink导入数据

Kafka

高吞吐管道:支持TB级数据缓冲,提供持久化与多副本机制,确保数据不丢失。

  • Kafka

支持

支持

异步数据管道场景,需解耦生产端与消费端,缓冲高并发数据。

通过Kafka导入数据

Spark

分布式计算:利用Spark引擎实现海量数据并行处理,支持SQL/DataFrame灵活转换。

  • MySQL

  • PostgreSQL

  • HDFS

  • S3

支持

支持

大数据量ETL处理,需结合计算逻辑(如SQL/DataFrame)的离线导入场景。

通过Spark导入数据

DataX

插件化架构:支持20+数据源扩展,提供离线批处理同步,适配企业级异构数据迁移。

  • MySQL

  • Oracle

  • HDFS

  • Hive

  • ODPS

  • HBase

  • FTP

不支持

支持

多源异构数据离线批处理同步,需高扩展性插件的场景。

通过DataX导入数据

SeaTunnel

轻量级ETL:配置驱动模式简化开发,支持CDC实时捕获,兼容Flink/Spark引擎。

  • MySQL

  • Hive

  • Kafka

支持

支持

简单配置驱动的CDC数据捕获及轻量级实时同步场景。

通过SeaTunnel导入数据

BitSail

多引擎适配:支持MapReduce/Flink多种计算框架,提供数据分片策略优化导入效率。

  • MySQL

  • Hive

  • Kafka

支持

支持

需灵活切换计算框架(如Flink与MR)的数据迁移场景。

通过BitSail导入数据

上一篇: 表结构变更 下一篇: 数据导入接口