本文为您介绍使用MaxCompute Studio开发Java程序的流程以及相关目录。

开发流程

通过MaxCompute Studio开发Java程序的流程如下:
  1. 创建MaxCompute Java Module
  2. 开发Java程序。您可以参考如下示例开发不同的Java程序:
  3. 打包、上传和注册

Module目录

创建MaxCompute Java Module后,MaxCompute Studio会自动创建一个Module。Module目录内容如下:
  • examples:示例代码,包括单元测试示例。您可以参考示例开发单元测试脚本。
  • src/main/java:开发Java程序的源码。
  • warehouse:存储MaxCompute项目的表(包括Schema和数据)和资源。
Module

warehouse目录

warehouse目录存储MaxCompute项目的表(包括Schema和数据)和资源,用于执行UDF或MapReduce。warehouse
  • warehouse目录包含项目名、资源(_resources_)、表(_tables_)、表名、表结构(_schema_)和表数据(data)。
  • 表结构(_schema_)文件中配置项目名、表名、列名和类型,并通过冒号(:)分隔。分区表需要配置分区列。图中wc_in1为非分区表,wc_in2为分区表。
  • data文件采用标准CSV格式存储表的数据:
    • 特殊字符为逗号(,)、单个双引号(")和换行符(\n\r\n)。
    • 列分隔符为逗号(,),行分隔符为换行符(\n\r\n)。
    • 如果列内容包含特殊字符,需要在该列内容前后加上双引号(" ")。例如3,No写为"3,No"
    • 如果列内容包含单个双引号("),则所有的单个双引号(")需要转义成双引号(" ")。例如a"b"c写为"a""b""c"
    • \N表示该列为NULL,如果该列内容为\N(STRING类型),需要转义为"""\N"""
    • 文件字符编码为UTF-8。