MaxCompute是阿里巴巴自研的一站式的快速、完全托管的TB/PB级数据仓库解决方案。本文将为您介绍MaxCompute相关的开源功能。

SDK

MaxCompute提供Java SDK和Python SDK接口实现创建、查看、删除MaxCompute表等操作。通过SDK,您可以通过编辑代码灵活地操作MaxCompute。MaxCompute提供的SDK如下:

MaxCompute RODPS

MaxCompute R语言插件:RODPS。具体使用说明请参见GitHub ODPS Plugin for R

服务支持方式:在GitHubODPS Plugin for R中留言或新建Issue。

MaxCompute JDBC

odps-jdbc是MaxCompute官方提供的JDBC驱动,它向Java程序提供了一套执行SQL任务的接口。项目托管在GiHub ODPS JDBC

服务支持方式:在GitHub ODPS JDBC中留言或新建Issue。

Mars

Mars是一个基于张量的统一分布式计算框架。使用Mars进行科学计算,不仅使大规模科学计算任务的实现从MapReduce上的数千行代码降低到Mars上的数行代码,更在性能上有大幅提升。

Mars已经在Github上开源代码,您可以一起参与共建Mars。请参见GitHub开源代码Mars

关于Mars的更多说明信息请参见Mars开发指南。您还可通过云栖文章了解Mars,请参见Mars相关文档

服务支持方式:在Github Mars中留言或新建Issue。

Data collector

MaxCompute数据集成工具插件,包括Flume、OGG、kettle、Sqoop、Hive 。

Data Collector是MaxCompute主要开源数据采集工具的集合,包括:
  • Flume插件
  • OGG插件
  • Sqoop
  • Kettle插件
  • Hive Data Transfer UDTF

    从这些数据采集工具的实现技术上来看,Flume和OGG插件是基于DataHub的SDK实现,而Sqoop、Kettle以及Hive Data Transfer UDTF是基于Tunnel的SDK实现。DataHub和Tunnel分别是MaxCompute系统的实时和批量数据通道。Flume插件和OGG插件面向于实时数据传输,而Sqoop、Kettle和Hive Data Transfer UDTF则适合用于离线批量的数据传输。

源代码请参见GitHub源码Aliyun MaxCompute Data Collectors。插件说明请参见wiki

服务支持方式:在GitHub Aliyun MaxCompute Data Collectors中留言或新建Issue。