离线物理表可帮助您统一配置与管理计算任务开发过程中用到的离线物理表,提升开发效率。本文为您介绍如何新建离线物理表。
使用限制
若您未购买数据标准模块,不支持设置表中的数据标准字段。
若您未购买资产安全模块,不支持设置表中的数据分级、数据分类字段。
仅支持MaxCompute和Hadoop计算引擎。
步骤一:离线物理表
在Dataphin首页,单击顶部菜单栏研发。默认进入数据开发页面。
按照以下操作指引,进入新建物理表对话框。
选择项目(Dev-Prod 模式需要选择环境)->单击表管理->单击图标-〉选择离线物理表。
在新建物理表对话框中,配置参数。
参数
描述
表名称
命名规则如下:
仅允许字母、数字、下划线(_),最多128个字符。
目录
默认选择离线物理表。同时,您也可以在表管理页面创建目标文件夹后,选择该目标文件夹为离线物理表的目录。
说明创建离线物理表文件夹类型需选择离线。
主题域
选择表所归属的主题域。若未可选主题域,您可以进行创建。请参见创建主题域,
描述
填写简单的描述,1000个字符以内。
存储类型
支持内部表和外部表存储类型。
内部表:由自身管理的表,存储在计算引擎中。
外部表:外部存储系统的表,如HDFS。创建外部表需填写外部存储地址location。最多512个字符。
说明外部表默认的存储设置为
stored as textfile
, 如需修改, 新建完成后可单击编辑DDL直接修改建表的SQL语句。
生命周期
MaxCompute计算引擎内部表可配置生命周期。从最后一次更新的时间起算,在经过指定的时间后没有变动,则该内部表将被MaxCompute自动回收。默认为36500, 即永久保留数据。若需配置存储周期至少为1天。
单击确定。
步骤二:配置物理表字段信息
在字段列表配置页面配置当前物理表的表字段、数据类型、数据分类等结构信息。
区域
描述
①字段列表操作
②字段列表
字段列表为您展示字段的序号、字段名称、数据类型、字段说明、字段标准、数据分类、数据分级等字段的详细信息。
序号:表字段序号。每新增1个字段,自增+1。
字段名称:表字段名称。您可输入字段名称或中文关键词,将自动匹配标准预置的字段名。
数据类型:支持string、bigint、double、timestamp、decimal、文本、数值、日期时间及其他数据类型。
字段说明:表字段说明信息,512个字符以内。
字段标准:选择字段的字段标准。如需创建标准,请参见新建和管理数据标准。
数据分类:选择字段的数据分类。如需创建数据分类,请参见新建数据分类。
数据分级:选择数据分类后,系统将自动识别数据级别。
同时您可以在操作列下对字段进行删除操作。
说明字段删除后不可撤销。
③批量操作
您可以批量选择表字段,进行以下操作。
删除:单击图标,批量删除已经选中的数据字段。
词根命名:单击图标,系统将对字段的说明内容进行分词并匹配已经创建的词根,进行字段名称推荐。您可以在词根命名对话框中,将选中字段的名称替换为修改后的值。如下图所示:
说明若推荐的字段名称均不满足需求,您可以在修复后字段名称输入框中进行修改。
单击重置将重置修改后字段名称为系统的命中词根。
字段标准:单击图标,系统将根据字段名称进行字段标准推荐。您可以在字段标准对话框中,将字段设置为推荐的字段标准。
在离线物理表开发页面底部单击提交。
在提交对话框中,您可查看到所生成的建表语句并进行检查。如下图所示:
确认无误后,单击确定并提交。
从表引入
在从表引入对话框中,选择引入字段的所在来源表并勾选所需引入字段,并单击添加进行引入。
从建表语句引入
在从建表语句引入对话框中,按照下图操作指引,输入建表语句后单击解析SQL,在解析出的字段中勾选所需引入的字段,并单击添加进行引入。
添加字段
添加字段方式支持添加数据字段、分区字段、快捷添加日期分区字段类型。按照下图操作指引,单击所需的字段类型后,并在字段区域填写字段名称、数据类型和字段说明信息。
参数
描述
字段名称
您可输入字段名称或中文关键词,将自动匹配标准预置的字段名。支持128个字符以内的数字、字母和下划线(_)。
数据类型
选择表字段数据类型。支持类型如下:
常用:string、bigint、double、datetime、timestamp、decimal。
文本:varchar、char。
数值:int、smaIlint、tinyint、float。
时间:date。MaxCompute计算引擎支持datetime。
说明Hadoop计算引擎的Hive不支持datetime。
其他:boolean、binary。
字段说明
填写字段描述信息。
字段标准
选择字段的字段标准。如需创建标准,请参见新建和管理数据标准。
数据分类
选择字段的数据分类。如需创建分类,请参见新建数据分类。
数据分级
选择数据分类后,系统将自动识别数据级别。
删除
您可以在操作列下对字段进行删除操作。
说明字段删除后不可撤销。
步骤四:导入数据(可选)
提交离线物理表后,您可导入数据至离线物理表。
单击导入数据按钮,进入导入数据对话框。
在导入数据对话框,基础配置步骤中上传数据和配置导入参数。
参数
描述
上传文件
单击选择文件,上传需导入的数据文件。仅支持.txt、.csv类型的文件,文件不超过10MB。
分隔符
数据的分隔符,支持逗号(,)、水平制表符(\t)、竖划线(|)、斜线(/)。也可以输入指定其他分隔符。
字符集编码
选择上传的数据文件字符集编码。支持解析utf-8(无BOM)、utf-8(有BOM)、gbk、big5、gb2312、ascii、utf-16字符集。
首行为标题
根据上传的数据文件选择首行是否为标题。
目标分区
如果表为分区表,需输入导入数据的目标分区名称。
单击下一步。
在导入数据步骤中,配置数据表字段的映射关系。
映射关系:
同行映射:即按相同行数对应进行绑定为映射关系。
同名映射:即按相同名称对应进行绑定为映射关系。
导入文件数据列:支持设置为数据列、空值NULL或固定值。
单击开始导入,即可导入数据到表中。