全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 智能硬件
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 更多
DataWorks(数据工场)

步骤1:建表并上传数据

更新时间:2017-12-21 01:27:57

本文将以创建表bank_data和result_table为例,说明如何创建表并上传数据。其中表bank_data用于存储业务数据,表result_table用于存储数据分析后产生的结果。

操作步骤

创建表bank_data

  1. 进入项目空间后,在数据开发页面单击新建,选择新建表。如下图所示:

  2. 在新建表页面,输入建表语句,单击确认。创建表的更多SQL语法请参见创建/查看/删除表

    本示例的建表语句如下所示:

    1. CREATE TABLE IF NOT EXISTS bank_data
    2. (
    3. age BIGINT COMMENT '年龄',
    4. job STRING COMMENT '工作类型',
    5. marital STRING COMMENT '婚否',
    6. education STRING COMMENT '教育程度',
    7. default STRING COMMENT '是否有信用卡',
    8. housing STRING COMMENT '房贷',
    9. loan STRING COMMENT '贷款',
    10. contact STRING COMMENT '联系途径',
    11. month STRING COMMENT '月份',
    12. day_of_week STRING COMMENT '星期几',
    13. duration STRING COMMENT '持续时间',
    14. campaign BIGINT COMMENT '本次活动联系的次数',
    15. pdays DOUBLE COMMENT '与上一次联系的时间间隔',
    16. previous DOUBLE COMMENT '之前与客户联系的次数',
    17. poutcome STRING COMMENT '之前市场活动的结果',
    18. emp_var_rate DOUBLE COMMENT '就业变化速率',
    19. cons_price_idx DOUBLE COMMENT '消费者物价指数',
    20. cons_conf_idx DOUBLE COMMENT '消费者信心指数',
    21. euribor3m DOUBLE COMMENT '欧元存款利率',
    22. nr_employed DOUBLE COMMENT '职工人数',
    23. y BIGINT COMMENT '是否有定期存款'
    24. );
  3. 创建表后,可以在左侧导航栏表查询中输入表名进行搜索,查看表信息。如下图所示:

    1

创建表result_table

  1. 进入数据开发页面,单击新建,选择新建表

  2. 在新建表页面,输入建表语句,单击确认。建表语句如下所示:

    1. CREATE TABLE IF NOT EXISTS result_table
    2. (
    3. education STRING COMMENT '教育程度',
    4. num BIGINT COMMENT '人数'
    5. );
  3. 创建表后,可以在左侧导航栏表查询中输入表名进行搜索,查看表信息。

本地数据上传至bank_data

DataWorks(数据工场,原大数据开发套件)支持以下操作:

  • 将保存在本地的文本文件中的数据上传到工作空间的表中。

  • 通过数据集成模块将业务数据从多个不同的数据源导入到工作空间。

注意:

本文将使用本地文件作为数据来源。本地文本文件上传有以下限制:

  • 文件类型:仅支持.txt和.csv格式。

  • 文件大小:不超过10M。

  • 操作对象:支持分区表导入和非分区表导入,但不支持分区值为中文。

以导入本地文件banking.txt到DataWorks为例,操作如下:

  1. 单击导入,选择导入本地数据。如下图所示:

    1

  2. 选择本地数据文件,配置导入信息,单击下一步。如下图所示:

  3. 至少输入2个字母搜索表名,选择需导入数据的表,如bank_data。若需新建,可单击去新建表,如下图所示:

  4. 选择字段匹配方式(本示例选择按位置匹配),单击导入。如下图所示:

  5. 文件导入后,系统将提示您数据导入成功或失败。

其他数据导入方式

创建数据同步任务

适用范围:

保存在RDS、MySQL、SQLServer、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、dm、Hdfs、MongoDB等多种数据源中的各种数据。

通过DataWorks创建数据同步任务的具体操作请参见创建数据同步任务

本地文件上传

适用范围:

文件大小不超过10M,支持.txt和.csv文件类型,目标支持分区表和非分区表,但不支持中文作为分区。

通过DataWorks进行本地文件上传,具体操作如上文本地数据上传至bank_data所示。

使用Tunnel命令上传文件

适用范围:

大小超过10M的本地文件和其他资源文件等。

通过MaxCompute客户端提供的Tunnel命令来进行数据的上传及下载,当本地数据文件需要上传到分区表时,可以通过客户端Tunnel命令方式进行上传。

详情请参见Tunnel命令操作

使用dataX开源工具

适用范围:

大批量的本地数据导入,二维表结构的数据等,上述3种方式无法支持的其他场景。详情请参见DataX

更多DataX开源介绍,请参见DataX开源地址

后续步骤

现在,您已经学习了如何创建表并上传数据,您可以继续学习下一个教程。在该教程中您将学习如何创建工作流来对项目空间的数据进行进一步的计算与分析。详情请参见创建工作流

本文导读目录