全部产品
MaxCompute

工具介绍

更新时间:2017-06-07 13:26:11   分享:   

MaxCompute 平台的数据上传和下载目前有着丰富的工具(其中大部分已经在github 上开源,走开源社区的维护方式)可以使用,各自有不同的应用场景,具体分为阿里云数加产品和开源产品两大类 , 下面将对这些工具分别进行介绍:

阿里云数加产品

1.大数据开发套件之数据集成

大数据开发套件之数据集成(也叫数据同步),是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台,致力于为阿里云上各类异构数据存储系统提供离线全量和实时增量的数据同步、集成、交换服务 。其中数据同步任务支持的数据源类型包括:MaxCompute、RDS(MySQL、SQL Server、PostgreSQL)、Oracle、FTP、ADS(AnalyticDB)、OSS、OCS、DRDS,详细介绍请参见:数据同步简介,具体使用方法请参见:创建数据同步任务

2. MaxCompute 客户端

备注:该项目已经开源,Github 项目地址为:https://github.com/aliyun/aliyun-odps-console

3. DTS

数据传输 (Data Transmission) 服务 DTS 是阿里云提供的一种支持 RDBMS (关系型数据库)、NoSQL、OLAP 等多种数据源之间数据交互的数据服务 。它提供了数据迁移、实时数据订阅及数据实时同步等多种数据传输功能 。

DTS 可以支持 RDS、MySQL 实例的数据实时同步到 MaxCompute 表中,暂不支持其他数据源类型。具体使用方法请参见:创建 RDS 到 MaxCompute 数据实时同步作业

开源产品:

1. Sqoop

Sqoop 基于社区 sqoop 1.4.6 版本开发,增强了对 MaxCompute 的支持,可以将数据从 Mysql 等关系数据库导入/导出到 MaxCompute 表中,也可以从 Hdfs/Hive 导入数据到 MaxCompute 表中。基本使用方法请参见:https://github.com/aliyun/aliyun-maxcompute-data-collectors/wiki/odps-sqoop

备注:该项目已经开源,Github项目地址为:https://github.com/aliyun/aliyun-maxcompute-data-collectors

2. Kettle

Kettle 是一款开源的 ETL 工具,纯 java 实现,可以在 Windows、Unix 和 Linux 上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑 。该工具的详细介绍和使用请参见:《基于 Kettle 的 MaxCompute 插件实现数据上云》

备注:该项目已经开源,Github项目地址为:https://github.com/aliyun/aliyun-maxcompute-data-collectors

3. Flume

Apache Flume 是一个分布式的、可靠的、可用的系统,可高效地从不同的数据源中收集、聚合和移动海量日志数据到集中式数据存储系统,支持多种 Source 和 Sink 插件 。

Apache Flume 的 DataHub Sink 插件可以将日志数据实时上传到 Datahub,并归档到 MaxCompute 表中 。具体使用方法请参见: https://github.com/aliyun/aliyun-maxcompute-data-collectors/wiki/flume_plugin

备注:该项目已经开源,Github 项目地址为:https://github.com/aliyun/aliyun-maxcompute-data-collectors

4. Fluentd

Fluentd 是一个开源的软件,用来收集各种源头日志(包括 Application Log、Sys Log 及 Access Log),允许用户选择插件对日志数据进行过滤,并存储到不同的数据处理端(包括 MySQL、Oracle、MongoDB、Hadoop、Treasure Data 等)。

Fluentd 的 DataHub 插件可以将日志数据实时上传到 DataHub,并归档到 MaxCompute 表中 。具体使用方法请参见:Fluentd 插件介绍

5. LogStash

Logstash 是一款开源日志收集处理框架,logstash-output-datahub 插件实现了将数据导入 DataHub 的功能 。通过简单的配置即可完成数据的采集和传输,结合 MaxCompute/StreamCompute 可以轻松构建流式数据从采集到分析的一站式解决方案 。

LogStash 的 DataHub 插件可以将日志数据实时上传到 DataHub,并归档到 MaxCompute 表中 。具体使用案例请参见:Logstash + DataHub + MaxCompute/StreamCompute 进行实时数据分析

6. OGG

OGG 的 DataHub 插件可以支持将 Oracle 数据库的数据实时地以增量方式同步到 DataHub 中,并最终归档到 MaxCompute 表中 。具体原理和使用方法请参见:《基于OGG Datahub插件将Oracle数据同步上云》

备注:该项目已经开源,Github 项目地址为:https://github.com/aliyun/aliyun-maxcompute-data-collectors

本文导读目录
本文导读目录
以上内容是否对您有帮助?