全部产品
大数据开发套件

步骤1:建表并上传数据

更新时间:2017-09-06 12:19:30   分享:   

本文将以创建表 bank_data 和 result_table 为例,说明如何创建表并上传数据。其中表 bank_data 用于存储业务数据,表 result_table 用于存储数据分析后产生的结果。

操作步骤

创建表 bank_data

  1. 进入项目空间后,在 数据开发 页面单击 新建,选择 新建表。如下图所示:

  2. 在新建表页面,输入建表语句,单击 确认。创建表的更多 SQL 语法请参见 MaxCompute 创建/查看/删除表

    本示例的建表语句如下所示:

    1. CREATE TABLE IF NOT EXISTS bank_data
    2. (
    3. age BIGINT COMMENT '年龄',
    4. job STRING COMMENT '工作类型',
    5. marital STRING COMMENT '婚否',
    6. education STRING COMMENT '教育程度',
    7. default STRING COMMENT '是否有信用卡',
    8. housing STRING COMMENT '房贷',
    9. loan STRING COMMENT '贷款',
    10. contact STRING COMMENT '联系途径',
    11. month STRING COMMENT '月份',
    12. day_of_week STRING COMMENT '星期几',
    13. duration STRING COMMENT '持续时间',
    14. campaign BIGINT COMMENT '本次活动联系的次数',
    15. pdays DOUBLE COMMENT '与上一次联系的时间间隔',
    16. previous DOUBLE COMMENT '之前与客户联系的次数',
    17. poutcome STRING COMMENT '之前市场活动的结果',
    18. emp_var_rate DOUBLE COMMENT '就业变化速率',
    19. cons_price_idx DOUBLE COMMENT '消费者物价指数',
    20. cons_conf_idx DOUBLE COMMENT '消费者信心指数',
    21. euribor3m DOUBLE COMMENT '欧元存款利率',
    22. nr_employed DOUBLE COMMENT '职工人数',
    23. y BIGINT COMMENT '是否有定期存款'
    24. );
  3. 创建表后,可以在左侧导航栏 表查询 中输入表名进行搜索,查看表信息。如下图所示:

    1

创建表 result_table

  1. 进入 数据开发 页面,单击 新建,选择 新建表

  2. 在新建表页面,输入建表语句,单击 确认。建表语句如下所示:

    1. CREATE TABLE IF NOT EXISTS result_table
    2. (
    3. education STRING COMMENT '教育程度',
    4. num BIGINT COMMENT '人数'
    5. );
  3. 创建表后,可以在左侧导航栏 表查询 中输入表名进行搜索,查看表信息。

本地数据上传至 bank_data

大数据开发套件支持以下操作:

  • 将保存在本地的文本文件中的数据上传到工作空间的表中。
  • 通过数据集成模块将业务数据从多个不同的数据源导入到工作空间。

注意:

本文将使用本地文件作为数据来源。本地文本文件上传有以下限制:

  • 文件类型:仅支持 .txt 和 .csv 格式。
  • 文件大小:不超过 10 M。
  • 操作对象:支持分区表导入和非分区表导入,但不支持分区值为中文。

以导入本地文件 banking.txt 到大数据开发套件为例,操作如下:

1 . 单击 导入,选择 导入本地数据。如下图所示:

122

2 . 选择本地数据文件,配置导入信息,单击 下一步。如下图所示:

3 . 至少输入2个字母搜索表名,选择需导入数据的表,如:bank_data。若需新建,可单击 去新建表,如下图所示:

4 . 选择字段匹配方式(本示例选择按位置匹配),单击 导入。如下图所示:

5 . 文件导入后,系统将提示您数据导入成功或失败。

其他数据导入方式

创建数据同步任务

适用范围:

保存在 RDS、MySQL、SQL Server、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、 dm、Hdfs、MongoDB 等多种数据源中的各种数据。

通过 DataIDE 创建数据同步任务的具体操作请参见 创建数据同步任务

本地文件上传

适用范围:

文件大小不超过 10M,支持 .txt 和 .csv 文件类型,目标仅支持非分区表。

通过 DataIDE 进行本地文件上传,具体操作如上文 本地数据上传至 bank_data 所示。

使用 Tunnel 命令上传文件

适用范围:

大小超过 10M 的本地文件和其他资源文件等。

通过 MaxCompute 客户端 提供的 Tunnel 命令来进行数据的上传及下载,当本地数据文件需要上传到分区表时,可以通过客户端 tunnel 命令方式进行上传。

详情请参见 Tunnel 命令操作

使用 dataX 开源工具

适用范围:

大批量的本地数据导入,二维表结构的数据等,上述3种方式无法支持的其他场景。详情请参见 DataX

更多 DataX 开源介绍,请参见 DataX 开源地址

后续步骤

现在,您已经学习了如何创建表并上传数据,您可以继续学习下一个教程。在该教程中您将学习如何创建工作流来对项目空间的数据进行进一步的计算与分析。详情请参见 创建工作流分析数据

本文导读目录
本文导读目录
以上内容是否对您有帮助?