MaxCompute是阿里巴巴自研的一站式的快速、完全托管的TB/PB/EB级数据仓库解决方案。本文将为您介绍MaxCompute相关的开源功能。
SDK
- Java SDK
Java SDK使用说明请参见Java SDK介绍。
服务支持方式:您可通过访问官方文档获取支持。
- Python SDK PyODPS是MaxCompute的Python版本的SDK,提供对MaxCompute对象的基本操作和DataFrame框架,让您可以轻松地在MaxCompute上进行数据分析。更多详情请参见GitHub项目aliyun-odps-python-sdk和包括所有接口、类的细节等详细内容的PyODPS文档。
- 欢迎各位开发者参与到PyODPS的生态开发中,在您开始使用PyODPS之前请先安装PyODPS,详细内容请参见PyODPS安装指南。
- 如何在DataWorks上使用PyODPS,详情请参见PyODPS开发指南。PyODPS提供了DataFrame API,详情请参见PyODPS DataFrame概述。
- 欢迎您在GitHub aliyun-odps-python-sdk反馈问题和需求,加快PyODPS生态成长。
服务支持方式:您可通过访问官方文档获取支持。
MaxCompute RODPS
MaxCompute R语言插件:RODPS。使用说明请参见GitHub ODPS Plugin for R。
服务支持方式:在GitHub ODPS Plugin for R中留言或新建Issue。
ODPS JDBC是MaxCompute官方提供的JDBC驱动,它向Java程序提供了一套执行SQL任务的接口。项目托管在GitHub ODPS JDBC。
服务支持方式:在GitHub ODPS JDBC中留言或新建Issue。
Mars
Mars是一个基于张量的统一分布式计算框架。使用Mars进行科学计算,不仅使大规模科学计算任务的实现从MapReduce上的数千行代码降低到Mars上的数行代码,更在性能上有大幅提升。
Mars已经在Github上开源代码,您可以一起参与共建Mars。详情请参见GitHub开源代码Mars 。
关于Mars的更多说明信息请参见Mars开发指南。
服务支持方式:在Github Mars中留言或新建Issue。
Data collector
MaxCompute数据集成工具插件,包括Flume、OGG、Kettle、Sqoop、Hive 。
- Flume插件
- OGG插件
- Sqoop
- Kettle插件
- Hive Data Transfer UDTF
Flume和OGG插件是基于DataHub的SDK实现,而Sqoop、Kettle以及Hive Data Transfer UDTF是基于Tunnel的SDK实现。DataHub和Tunnel分别是MaxCompute系统的实时和批量数据通道。Flume插件和OGG插件面向于实时数据传输,而Sqoop、Kettle和Hive Data Transfer UDTF则适合用于离线批量的数据传输。
服务支持方式:在GitHub Aliyun MaxCompute Data Collectors中留言或新建Issue。