文档

新建离线物理表

更新时间:

离线物理表可帮助您统一配置与管理计算任务开发过程中用到的离线物理表,提升开发效率。本文为您介绍如何新建离线物理表。

使用限制

  • 若您未购买数据标准模块,不支持设置表中的数据标准字段。

  • 若您未购买资产安全模块,不支持设置表中的数据分级数据分类字段。

  • 若您未购买资产质量模块,不支持实现主键字段的唯一非空校验。

步骤一:离线物理表

  1. 在Dataphin首页,单击顶部菜单栏研发。默认进入数据开发页面。

  2. 按照下图操作指引,进入新建物理表对话框。

    image

  3. 新建物理表对话框中,配置参数。

    参数

    描述

    表名称

    命名规则如下:

    仅允许字母、 数字、下划线(_)、128位字符以内。

    目录

    默认选择离线物理表。同时您也可以在表管理页面创建目标文件夹后,选择该目标文件夹为离线物理表的目录。

    image

    说明

    创建离线物理表文件夹类型需选择离线

    主题域

    选择表所归属的主题域。若未可选主题域,您可以进行创建。请参见创建主题域

    描述

    填写简单的描述。

    存储类型

    支持内部表外部表存储类型。

    • 内部表:由自身管理的表,存储在计算引擎中。

    • 外部表外部存储系统的表,如HDFS。创建外部表需填写外部存储地址location。最多512字。

      说明

      外部表默认的存储设置为stored as textfile, 如需修改, 新建完成后可单击编辑DDL直接修改建表的SQL语句。

    生命周期

    MaxCompute计算引擎内部表可配置生命周期。从最后一次更新的时间起算,在经过指定的时间后没有变动,则该内部表将被MaxCompute自动回收。默认为36500, 即永久保留数据。若需配置存储周期至少为1天

  4. 单击确定

步骤二:引入或添加字段

  1. 在离线物理表开发页面,为离线物理表引入或添加字段。

    离线物理表字段支持引入和手动添加方式为离线物理表添加字段。各添加字段方式配置说明如下:

    • 入字段

      在离线物理表开发页面,可选从表引入从建表语句引入

      • 从表引入

        从表引入对话框中,按照下图操作指引,选择引入字段的所在来源表并勾选所需引入字段,并单击添加进行引入。

        image..png

      • 从建表语句引入

        从建表语句引入对话框中,按照下图操作指引,输入建表语句后单击解析SQL,在解析出的字段中勾选所需引入的字段,并单击添加进行引入。

        image..png

    • 添加字段

      添加字段方式支持添加数据字段分区字段快捷添加日期分区字段类型。按照下图操作指引,单击所需的字段类型后,并在字段区域填写字段名称数据类型字段说明信息。

      image..png

      参数

      描述

      字段名称

      您可输入字段名称或中文关键词,将自动匹配标准预置的字段名。支持128个字符以内的数字、字母和下划线(_)。

      数据类型

      选择表字段数据类型。支持类型如下:

      常用:string、bigint、double、datetime、timestamp、decimal。

      文本:varchar、char。

      数值:int、smaIlint、tinyint、float。

      时间:date。MaxCompute计算引擎支持datetime。

      其他:boolean、binary。

      字段说明

      填写字段描述信息。

      字段标准

      选择字段的字段标准。如需创建标准,请参见新建和管理数据标准

      数据分类

      选择字段的数据分类。如需创建分类,请参见新建数据分类

      数据分级

      选择数据分类后,系统将自动识别数据级别。

      删除

      您可以在操作列下对字段进行删除操作。

      说明

      字段删除后不可撤销。

步骤三:提交离线物理表

  1. 在离线物理表开发页面底部单击提交

  2. 提交对话框中,您可查看到所生成的建表语句并进行检查。如下图所示:

    image

  3. 确认无误后,单击确定并提交

步骤四:导入数据(可选)

提交离线物理表后,您可导入数据至离线物理表。

  1. 单击导入数据按钮,进入导入数据对话框。

    image..png

  2. 导入数据对话框,基础配置步骤中上传数据和配置导入参数。

    参数

    描述

    上传文件

    单击选择文件,上传需导入的数据文件。仅支持.txt,.csv类型的文件,文件不超过10MB。

    分隔符

    数据的分隔符,支持逗号(,)、水平制表符(\t)、竖划线(|)、斜线(/)。也可以输入指定其他分隔符。

    字符集编码

    选择上传的数据文件字符集编码。支持解析utf-8(无BOM)、utf-8(有BOM)、gbk、big5、gb2312、ascii、utf-16字符集。

    首行为标题

    根据上传的数据文件选择首行是否为标题。

    目标分区

    如果表为分区表,需输入导入数据的目标分区名称。

  3. 单击下一步

  4. 导入数据步骤中,配置数据表字段的映射关系。

    • 映射关系

      • 同行映射:即按相同行数一一对应进行绑定为映射关系。

      • 同名映射:即按相同名称一一对应进行绑定为映射关系。

    • 导入文件数据列:支持设置为数据列、空值NULL或固定值。

  5. 单击开始导入,即可导入数据到表中。

后续步骤

  • 如果您的开发模式是Dev-Prod模式,则需要发布离线物理表。更多信息,请参见管理发布任务

  • 如果您的开发模式是Basic模式,则提交成功后的离线物理表即可在资产目录进行管理。更多信息,请参见资产目录

  • 本页导读 (0)
文档反馈