建表并上传数据

本文以创建表bank_data和result_table为例,为您介绍如何通过DataWorks创建表并上传数据。

前提条件

已在工作空间添加MaxCompute数据源,并在数据开发中绑定对应MaxCompute数据源后,当前页面才会显示MaxCompute目录。

  • 工作空间添加MaxCompute数据源,详情请参见创建MaxCompute数据源

  • 数据开发中绑定MaxCompute数据源,请在数据开发控制台左侧导航栏单击数据源,根据提示进行操作。

  • 已在系统管理中配置引擎使用的资源组,详情请参见系统管理

    重要

    若未在系统管理中配置引擎所使用的资源组,您将收到错误提示:当前文件来源或者目标引擎需要配置资源组进行数据上传,请联系空间管理员进行资源组的配置

背景信息

表bank_data用于存储业务数据,表result_table用于存储数据分析后产生的结果。

创建表bank_data

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 数据开发页面,鼠标悬停至新建图标,单击新建表 > MaxCompute > 数据开发创建MaxCompute表

    您也可以打开相应的业务流程,右键单击MaxCompute,选择新建表

  3. 新建表对话框中,选择相应的路径,输入名称bank_data,单击新建

  4. 在表的编辑页面,单击DDL

  5. DDL对话框中,输入如下建表语句,单击生成表结构

    CREATE TABLE IF NOT EXISTS bank_data
    (
     age             BIGINT COMMENT '年龄',
     job             STRING COMMENT '工作类型',
     marital         STRING COMMENT '婚否',
     education       STRING COMMENT '教育程度',
     default         STRING COMMENT '是否有信用卡',
     housing         STRING COMMENT '房贷',
     loan            STRING COMMENT '贷款',
     contact         STRING COMMENT '联系途径',
     month           STRING COMMENT '月份',
     day_of_week     STRING COMMENT '星期几',
     duration        STRING COMMENT '持续时间',
     campaign        BIGINT COMMENT '本次活动联系的次数',
     pdays           DOUBLE COMMENT '与上一次联系的时间间隔',
     previous        DOUBLE COMMENT '之前与客户联系的次数',
     poutcome        STRING COMMENT '之前市场活动的结果',
     emp_var_rate    DOUBLE COMMENT '就业变化速率',
     cons_price_idx  DOUBLE COMMENT '消费者物价指数',
     cons_conf_idx   DOUBLE COMMENT '消费者信心指数',
     euribor3m       DOUBLE COMMENT '欧元存款利率',
     nr_employed     DOUBLE COMMENT '职工人数',
     y               BIGINT COMMENT '是否有定期存款'
    );

    创建表的更多SQL语法请参见创建表

  6. 确认操作对话框中,单击确认

  7. 生成表结构后,在基本属性模块输入表的中文名,并分别单击提交到开发环境提交到生产环境

    说明

    本示例以标准模式的工作空间为例。如果您使用的是简单模式的工作空间,仅需单击提交到生产环境即可。

  8. 在左侧导航栏,单击表管理

  9. 表管理页面,双击打开相应的表名,查看表信息。

创建表result_table

  1. 数据开发页面,鼠标悬停至新建图标,单击新建表 > MaxCompute >

    您也可以打开相应的业务流程,右键单击MaxCompute,选择新建表。

  2. 新建表对话框中,选择相应的路径,输入表名result_table,单击新建

  3. DDL模式对话框中,输入如下建表语句,单击生成表结构

    CREATE TABLE IF NOT EXISTS result_table
    (  
     education   STRING COMMENT '教育程度',
     num         BIGINT COMMENT '人数'
    );
  4. 确认操作对话框中,单击确认

  5. 生成表结构后,在基本属性区域输入表的中文名,并分别单击提交到开发环境提交到生产环境

  6. 在左侧导航栏,单击表管理

  7. 表管理页面,双击打开相应的表名,查看表信息。

本地数据上传至bank_data

DataWorks支持以下操作:

  • 上传本地的文本文件至工作空间的表中。

  • 通过数据集成模块,从多个不同的数据源导入业务数据至工作空间。

说明

本地文本文件上传的限制如下:

  • 文件类型:仅支持.txt.csv.log类型的文件。

  • 文件大小:不能超过30MB。

    如果您需要上传超过30MB的文件,则可以使用如下方式:

    • 将数据文件上传至OSS,使用MaxCompute外部表映射的方式获取OSS中相应的文件数据。上传数据至OSS,详情请参见上传文件,MaxCompute外部表映射,详情请参见外部表

    • 将数据文件上传至OSS,使用数据集成功能将OSS的数据同步至MaxCompute表。上传数据至OSS,详情请参见上传文件,同步OSS数据至MaxCompute表,详情请参见通过向导模式配置离线同步任务

    • 使用数据分析 > 数据上传功能。

  • 操作对象:支持分区表导入和非分区表导入,但不支持分区值为中文、and(&)、星号(*)等特殊字符。

以导入本地文件banking.txt至DataWorks为例,操作如下:

  1. 数据开发页面,单击导入图标。使用数据开发导入数据

  2. 数据导入向导对话框中,至少输入3个字母来搜索需要导入数据的bank_data表,单击下一步

    说明

    如果您创建表后无法在此处搜索到该表,您可以先在数据地图进行手工同步表操作后,再在此处尝试搜索该表,手工同步详情可参考文档:手动刷新表元数据

  3. 选择数据导入方式上传本地数据,单击选择文件后的浏览...。选择本地数据文件,配置导入信息。

    bank

    参数

    描述

    选择数据导入方式

    默认上传本地文件

    文件格式

    您可以选择csv自定义文本文件两种格式。

    选择文件

    单击浏览...,选择本地需要上传的文件。

    选择分隔符

    包括逗号Tab分号空格|#&等分隔符,此处选择逗号

    原始字符集

    包括GBKUTF-8CP936ISO-8859,此处选择GBK

    导入起始行

    选择导入的起始行,此处选择1

    首行为标题

    根据自身需求,设置首行是否为标题。本示例无需选中首行为标题

    数据预览

    您可以在此处进行数据预览。

  4. 单击下一步

  5. 选择目标表字段与源字段的匹配方式,本示例选择按位置匹配

  6. 单击导入数据

后续步骤

现在,您已经学习了如何创建表并上传数据,您可以继续下一个教程。在该教程中,您将学习如何通过创建、配置和提交业务流程,对工作空间的数据进行深入分析和计算。详情请参见创建业务流程