MaxCompute平台的数据上传和下载目前有着丰富的工具(其中大部分已经在GitHub上开源,走开源社区的维护方式)可以使用,各自有不同的应用场景,具体分为阿里云数加产品和开源产品两大类,本文将进行简要介绍。

阿里云数加产品

  • DataWorks之数据集成

    DataWorks之数据集成(即数据同步),是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台,致力于为阿里云上各类异构数据存储系统提供离线全量和实时增量的数据同步、集成、交换服务。

    其中数据同步任务支持的数据源类型包括:MaxCompute、RDS(MySQL、SQL Server、PostgreSQL)、Oracle、FTP、ADS(AnalyticDB)、OSS、Memcache和DRDS,详情请参见数据同步简介,具体使用方法请参见创建数据同步任务

  • MaxCompute客户端
    说明
    该项目已经开源,您可进入aliyun-odps-console进行查看 。
  • DTS

    数据传输(Data Transmission)服务DTS是阿里云提供的一种支持RDBMS(关系型数据库)、NoSQL、OLAP等多种数据源之间数据交互的数据服务。它提供了数据迁移、实时数据订阅及数据实时同步等多种数据传输功能。

    DTS可以支持RDS、MySQL实例的数据实时同步到MaxCompute表中,暂不支持其他数据源类型。

开源产品

  • Sqoop

    Sqoop基于社区Sqoop 1.4.6版本开发,增强了对MaxCompute的支持,可以将数据从MySQL等关系数据库导入/导出到MaxCompute表中,也可以从HDFS/Hive导入数据到MaxCompute表中。

    说明
    该项目已经开源,您可进入aliyun-maxcompute-data-collectors进行查看。
  • Kettle

    Kettle是一款开源的ETL工具,纯Java实现,可以在Windows、Unix和Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。

    说明
    该项目已经开源,您可进入aliyun-maxcompute-data-collectors进行查看。
  • Flume

    Apache Flume是一个分布式的、可靠的、可用的系统,可高效地从不同的数据源中收集、聚合和移动海量日志数据到集中式数据存储系统,支持多种Source和Sink插件。

    Apache Flume的DataHub Sink插件可以将日志数据实时上传到DataHub,并归档到MaxCompute表中。

    说明
    该项目已经开源,您可进入aliyun-maxcompute-data-collectors进行查看。
  • Fluentd

    Fluentd是一个开源的软件,用来收集各种源头日志(包括Application Log、Sys Log及Access Log),允许您选择插件对日志数据进行过滤,并存储到不同的数据处理端(包括MySQL、Oracle、MongoDB、Hadoop、Treasure Data等)。

    Fluentd的DataHub插件可以将日志数据实时上传到DataHub,并归档到MaxCompute表中。

  • LogStash

    LogStash是一款开源日志收集处理框架,logstash-output-datahub插件实现了将数据导入DataHub的功能。通过简单的配置即可完成数据的采集和传输,结合MaxCompute/StreamCompute可以轻松构建流式数据从采集到分析的一站式解决方案。

    LogStash的DataHub插件可以将日志数据实时上传到DataHub,并归档到MaxCompute表中。

  • OGG

    OGG的DataHub插件可以支持将Oracle数据库的数据实时地以增量方式同步到DataHub中,并最终归档到MaxCompute表中。

    说明
    该项目已经开源,您可进入aliyun-maxcompute-data-collectors进行查看。