MaxCompute平台提供丰富的数据上传下载工具,可以广泛应用于各种数据上云的应用场景,本文将介绍三种经典场景中的数据传输工具的选择。

Hadoop数据迁移

您可使用Sqoop和DataWorks进行Hadoop数据迁移。

  • 使用DataWorks结合DataX进行Hadoop数据迁移的示例请参见Hadoop数据迁移新手教程
  • Sqoop执行时,会在原来的Hadoop集群上执行MR作业,可以分布式地将数据传输到MaxCompute上,详情请参见Sqoop工具的介绍

数据库数据同步

数据库数据同步到MaxCompute需要根据数据库的类型和同步策略来选择相应的工具。

  • 离线批量的数据库数据同步:可以选择DataWorks,支持的数据库种类丰富,包括MySQL、SQL Server、PostgreSQL等,详情请参见数据同步简介。您也可以参见 创建同步任务进行实例操作。
  • Oracle数据库数据实时同步时,可以选择OGG插件工具
  • RDS数据库数据实时同步时,可以选择DTS同步,详情请参见什么是数据传输服务DTS

日志采集

日志采集时,您可以选用Flume、Fluentd、LogStash等工具。具体场景示例请参见Flume收集网站日志数据到MaxCompute海量日志数据分析与应用