本文将以创建表bank_data和result_table为例,为您介绍如何通过DataWorks V2.0创建表并上传数据。

说明 其中表bank_data用于存储业务数据,表result_table用于存储数据分析后产生的结果。

创建表bank_data

  1. 创建工作空间后,单击对应工作空间操作栏下的进入数据开发
  2. 进入DataStudio(数据开发)页面,选择新建 >
    表
  3. 新建表对话框中,填写表名为bank_data。
    表名
  4. 单击提交
  5. 进入新建表页面,选择DDL模式
  6. DDL模式对话框中输入建表语句,单击生成表结构,并确认操作。
    确认

    创建表的更多SQL语法请参见创建和查看表

    本示例的建表语句如下所示:

    CREATE TABLE IF NOT EXISTS bank_data
    (
     age             BIGINT COMMENT '年龄',
     job             STRING COMMENT '工作类型',
     marital         STRING COMMENT '婚否',
     education       STRING COMMENT '教育程度',
     default         STRING COMMENT '是否有信用卡',
     housing         STRING COMMENT '房贷',
     loan            STRING COMMENT '贷款',
     contact         STRING COMMENT '联系途径',
     month           STRING COMMENT '月份',
     day_of_week     STRING COMMENT '星期几',
     duration        STRING COMMENT '持续时间',
     campaign        BIGINT COMMENT '本次活动联系的次数',
     pdays           DOUBLE COMMENT '与上一次联系的时间间隔',
     previous        DOUBLE COMMENT '之前与客户联系的次数',
     poutcome        STRING COMMENT '之前市场活动的结果',
     emp_var_rate    DOUBLE COMMENT '就业变化速率',
     cons_price_idx  DOUBLE COMMENT '消费者物价指数',
     cons_conf_idx   DOUBLE COMMENT '消费者信心指数',
     euribor3m       DOUBLE COMMENT '欧元存款利率',
     nr_employed     DOUBLE COMMENT '职工人数',
     y               BIGINT COMMENT '是否有定期存款'
    );
  7. 表结构生成后,输入表的中文名,并分别提交到开发环境提交到生产环境
    提交环境
  8. 创建成功后,您可以在左侧导航栏的表管理中,输入表名进行搜索。搜索成功后,双击表名,即可查看表信息。
    表管理

创建表result_table

  1. 进入DataStudio(数据开发)页面,选择新建 >
    创建表
  2. 新建表对话框中,填写表名为result_table。
  3. 进入新建表页面,选择DDL模式
  4. DDL模式对话框中输入建表语句,单击生成表结构,并确认操作。

    本示例的建表语句如下所示:

    CREATE TABLE IF NOT EXISTS result_table
    (  
     education   STRING COMMENT '教育程度',
     num         BIGINT COMMENT '人数'
    );
  5. 表结构生成后,输入表的中文名,并分别提交到开发环境提交到生产环境
  6. 创建成功后,您可以在左侧导航栏的表管理中,输入表名进行搜索。搜索成功后,双击表名,即可查看表信息。

本地数据上传至bank_data

DataWorks支持以下操作:

  • 将保存在本地的文本文件中的数据,上传至工作空间的表中。
  • 通过数据集成模块,将业务数据从多个不同的数据源导入至工作空间。
说明 本文将使用本地文件作为数据来源。本地文本文件上传有以下限制:
  • 文件类型:仅支持.txt.csv.log文件类型。
  • 文件大小:不超过10M。
  • 操作对象:支持分区表导入和非分区表导入,但不支持分区值为中文。

以导入本地文件banking.txt至DataWorks为例,操作如下:

  1. 单击导入
    导入
  2. 数据导入向导对话框中,选择要导入数据的表,单击下一步
    数据导入向导
  3. 单击浏览...,选择本地数据文件,配置导入信息。确认无误后,单击下一步
    浏览
  4. 选择目标表字段与源字段的匹配方式(本示例选择按位置匹配),单击按位置匹配
    按位置匹配

文件导入后,系统将返回数据导入成功的条数或失败的异常。

其他数据导入方式

  • 创建数据同步任务

    此方式适用于保存在RDS、MySQL、SQL Server、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、DM、HDFS和MongoDB等多种数据源中的各种数据。

    通过DataWorks创建数据同步的具体操作,请参见创建同步任务

  • 本地文件上传

    此方式适用于文件大小不超过10M、文件类型为.txt和.csv的数据,目标支持分区表和非分区表,但不支持中文作为分区。

    通过DataWorks进行本地文件上传,具体操作请参见本地数据上传至bank_data

  • 使用Tunnel命令上传文件

    此方式适用于任意大小的的本地文件和其他资源文件等。

    通过MaxCompute客户端提供的Tunnel命令,来进行数据的上传及下载。当本地数据文件需要上传至分区表时,可以通过客户端Tunnel命令方式进行上传。详情请参见Tunnel命令操作

后续步骤

现在,您已经学习了如何创建表并上传数据,您可以继续学习下一个教程。在该教程中,您将学习如何创建业务流程,对工作空间的数据进行计算与分析。详情请参见创建业务流程