MaxCompute是阿里巴巴自研的一站式的快速、完全托管的TB/PB级数据仓库解决方案。本章节将为您介绍MaxCompute相关的开源功能。

SDK

MaxCompute提供Java SDK和Python SDK接口实现创建、查看、删除MaxCompute表等操作。通过SDK,您可以通过编辑代码灵活地操作MaxCompute。MaxCompute提供的SDK如下:
  • Java SDK

    使用说明可参考MaxCompute文档SDK 参考 > Java SDK

    较为常用的MaxCompute核心接口详情请参见ODPS SDK Java DOC。更多信息可参考GitHub ODPS SDK for Java Developers

    服务支持方式:您可通过访问官方文档和在线提交工单的方式获取支持。

  • Python SDK
    PyODPS是MaxCompute的Python版本的SDK,提供对MaxCompute对象的基本操作和DataFrame框架,让您可以轻松地在MaxCompute上进行数据分析。更多详情请参见GitHub项目aliyun-odps-python-sdk和包括所有接口、类的细节等内容的详细PyODPS文档

    服务支持方式:您可通过访问官方文档和在线提交工单的方式获取支持。

MaxCompute rodps

MaxCompute R语言插件:RODPS。具体使用说明请参考GitHub ODPS Plugin for R

服务支持方式:在Github ODPS Plugin for R中留言或新建Issue。

MaxCompute JDBC

odps-jdbc是MaxCompute官方提供的JDBC驱动,它向Java程序提供了一套执行SQL任务的接口。项目托管在GiHub ODPS JDBC

服务支持方式:在GitHub ODPS JDBC中留言或新建Issue。

Mars

Mars是一个基于张量的统一分布式计算框架。使用Mars进行科学计算,不仅使得完成大规模科学计算任务从MapReduce实现上千行代码降低到Mars数行代码,更在性能上有大幅提升。

Mars已经在Github上开源代码,您可以一起参与共建Mars。请参见GitHub开源代码Mars

关于Mars的更多说明信息请参见Mars开发指南。您还可通过云栖文章了解Mars,请参见Mars相关文档

服务支持方式:在Github Mars中留言或新建Issue。

Data collector

MaxCompute数据集成工具插件,包括Flume、OGG、kettle、Sqoop、Hive 。

Data Collector是MaxCompute主要开源数据采集工具的集合,包括:
  • Flume插件
  • OGG插件
  • Sqoop
  • Kettle插件
  • Hive Data Transfer UDTF

    从这些数据采集工具的实现技术上来看,Flume和OGG插件是基于DataHub的SDK实现,而Sqoop、Kettle以及Hive Data Transfer UDTF是基于Tunnel的SDK实现。DataHub和Tunnel分别是MaxCompute系统的实时和批量数据通道。Flume插件和OGG插件是面向于实时数据传输,而Sqoop,Kettle和Hive Data Transfer UDTF则是适合用于离线批量的数据传输。

参考源代码请参见GitHub源码Aliyun MaxCompute Data Collectors。插件说明请参见wiki

服务支持方式:在Github Aliyun MaxCompute Data Collectors中留言或新建Issue。