数据导入
云数据库 SelectDB 版支持多样化的数据导入方式,涵盖原生接口与生态工具,满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到SelectDB的核心接口与工具。
导入选型建议
非阿里云生态源数据:
导入接口:Kafka数据源优先选择Routine Load,非Kafka数据源优先选择Stream Load。
导入工具:Flink。
大规模数据:
导入接口:Kafka数据源优先选择Routine Load,非Kafka数据源优先选择Stream Load。
导入工具:阿里云生态MySQL数据源优先选择DTS,非阿里云生态MySQL数据源与非MySQL数据源优先选择Flink。
导入接口
接口方式 | 特性说明 | 支持数据格式 | 适用场景 | 操作步骤 |
Stream Load(推荐) |
| CSV/JSON/PARQUET/ORC | 本地文件/数据流实时或批量导入到SelectDB。 | |
Routine Load | 实时处理数据流。 | CSV/JSON | 常驻任务持续从指定的数据源读取数据并导入到SelectDB。 说明 目前仅支持Kafka数据源。 | |
Broker Load |
| CSV/PARQUET/ORC | 读取OSS、HDFS、S3等远端存储数据导入至SelectDB。 | |
OSS Load |
| CSV/PARQUET/ORC | 将阿里云OSS数据导入至SelectDB。 | |
Insert Into |
| 读取库表数据,不涉及文件格式。 |
|
导入工具
工具 | 工具特点 | 支持的数据源 | 增量数据 | 历史数据 | 适用场景 | 操作步骤 |
DataWorks | 全链路管控:集成任务调度、数据监控、血缘分析功能,支持阿里云生态无缝对接。 |
| 不支持 | 支持 | 企业级数据集成,需任务编排与监控的复杂数据链路场景 | |
DTS | 实时同步:支持秒级延迟数据迁移,提供断点续传、数据校验功能,保障迁移可靠性。 |
| 支持 | 支持 | 跨云/混合云数据库实时同步,需高可靠迁移的场景 | |
X2Doris | 一键迁移:自动同步源端表结构,提供Web可视化界面,简化异构数据源迁移流程。 |
| 不支持 | 支持 | 从异构数据源迁移至SelectDB,降低迁移复杂度。 | |
Flink | 流批一体:支持Exactly-Once语义的实时流处理,集成计算与导入,适配复杂ETL场景。 |
| 支持 | 支持 | 适用于实时数仓构建,且需流式计算与数据导入一体化的场景。 | |
Kafka | 高吞吐管道:支持TB级数据缓冲,提供持久化与多副本机制,确保数据不丢失。 |
| 支持 | 支持 | 异步数据管道场景,需解耦生产端与消费端,缓冲高并发数据。 | |
Spark | 分布式计算:利用Spark引擎实现海量数据并行处理,支持SQL/DataFrame灵活转换。 |
| 支持 | 支持 | 大数据量ETL处理,需结合计算逻辑(如SQL/DataFrame)的离线导入场景。 | |
DataX | 插件化架构:支持20+数据源扩展,提供离线批处理同步,适配企业级异构数据迁移。 |
| 不支持 | 支持 | 多源异构数据离线批处理同步,需高扩展性插件的场景。 | |
SeaTunnel | 轻量级ETL:配置驱动模式简化开发,支持CDC实时捕获,兼容Flink/Spark引擎。 |
| 支持 | 支持 | 简单配置驱动的CDC数据捕获及轻量级实时同步场景。 | |
BitSail | 多引擎适配:支持MapReduce/Flink多种计算框架,提供数据分片策略优化导入效率。 |
| 支持 | 支持 | 需灵活切换计算框架(如Flink与MR)的数据迁移场景。 |