MaxCompute平台支持丰富的数据上传和下载工具(其中大部分工具已经在GitHub公开源代码,以开源社区的方式进行维护)。您可以根据实际应用场景,选择合适的工具进行数据的上传和下载。
阿里云数加产品
MaxCompute客户端(Tunnel通道系列)
客户端基于批量数据通道的SDK,实现了内置的Tunnel命令,可对数据进行上传和下载,Tunnel命令的使用请参见Tunnel命令的基本使用介绍。
客户端的安装和基本使用方法请参见客户端介绍。
说明该项目已经开源,您可进入aliyun-odps-console进行查看 。
DataWorks数据集成(Tunnel通道系列)
DataWorks数据集成(即数据同步),是一个稳定高效、弹性伸缩的数据同步平台,致力于为阿里云上各类异构数据存储系统提供离线全量和实时增量的数据同步、集成、交换服务。
其中数据同步任务支持的数据源类型包括:MaxCompute、RDS(MySQL、SQL Server、PostgreSQL)、Oracle、FTP、ADS(AnalyticDB)、OSS、Memcache和DRDS,详情请参见数据集成概述。
DTS(Tunnel通道系列)
什么是数据传输服务DTS是阿里云提供的一种支持RDBMS(关系型数据库)、NoSQL、OLAP等多种数据源之间数据交互的数据服务。它提供了数据迁移、实时数据订阅及数据实时同步等多种数据传输功能。
DTS可以支持RDS、MySQL实例的数据实时同步到MaxCompute表中,暂不支持其他数据源类型。详情请参见创建RDS到MaxCompute数据实时同步作业。
开源产品
Sqoop(Tunnel通道系列)
Sqoop基于社区Sqoop 1.4.6版本开发,增强了对MaxCompute的支持,可以将数据从MySQL等关系数据库导入或导出到MaxCompute表中,也可以从HDFS或Hive导入数据到MaxCompute表中。详情请参见MaxCompute Sqoop。
说明该项目已经开源,您可进入aliyun-maxcompute-data-collectors进行查看。
Kettle(Tunnel通道系列)
Kettle是一款开源的ETL工具,纯Java实现,可以在Windows、Unix和Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑 。详情请参见基于Kettle的MaxCompute插件实现数据上云。
说明该项目已经开源,您可进入aliyun-maxcompute-data-collectors进行查看。
Flume(DataHub通道系列)
Apache Flume是一个分布式的、可靠的、可用的系统,可高效地从不同的数据源中收集、聚合和移动海量日志数据到集中式数据存储系统,支持多种Source和Sink插件。
Apache Flume的DataHub Sink插件可以将日志数据实时上传到DataHub,并归档到MaxCompute表中。详情请参见flume_plugin。
说明该项目已经开源,您可进入aliyun-maxcompute-data-collectors进行查看。
Fluentd(DataHub通道系列)
Fluentd是一个开源的软件,用来收集各种源头日志(包括Application Log、Sys Log及Access Log),允许您选择插件对日志数据进行过滤,并存储到不同的数据处理端(包括MySQL、Oracle、MongoDB、Hadoop、Treasure Data等)。
Fluentd的DataHub插件可以将日志数据实时上传到DataHub,并归档到MaxCompute表中。详情请参见 Fluentd插件介绍。
LogStash(DataHub通道系列)
LogStash是一款开源日志收集处理框架,logstash-output-datahub插件实现了将数据导入DataHub的功能。通过简单的配置即可完成数据的采集和传输,结合MaxCompute和StreamCompute可以轻松构建流式数据从采集到分析的一站式解决方案。
LogStash的DataHub插件可以将日志数据实时上传到DataHub,并归档到MaxCompute表中。
OGG(DataHub通道系列)
OGG的DataHub插件可以支持将Oracle数据库的数据实时地以增量方式同步到DataHub中,并最终归档到MaxCompute表中。详情请参见基于OGG DataHub插件将Oracle数据同步上云。
说明该项目已经开源,您可进入aliyun-maxcompute-data-collectors进行查看。
MMA迁移工具
MMA利用Meta Carrier连接用户的Hive Metastore服务,抓取用户的Hive Metadata,并利用这些数据生成用于创建MaxCompute表和分区的DDL语句以及用于迁移数据的Hive UDTF SQL。详情请参见MMA概述。