数据目录提供统一界面,方便管理和操作Hive元数据。本文将为您介绍如何在数据目录中创建和管理表数据对象。
进入Hive数据目录页面
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的 ,进入Data Studio。
单击左侧导航栏中的
图标,在数据目录的目录树中单击Hive,即可进入Hive数据目录管理页面。
创建Hive数据目录
在Hive数据目录管理页面,您可将已有的Hive数据源作为数据集添加到数据目录列表。
单击Hive数据目录右侧的
图标,进入添加实例页面。
在DataWorks数据源页签将Hive数据源添加到数据目录列表。
如需管理当前工作空间中新版数据开发绑定的EMR计算资源,可在DataWorks数据源页签找到对应的EMR集群数据源,单击操作栏的添加按钮完成添加。
也可在DataWorks数据源页签勾选多个Hive数据源,单击列表下方的批量添加按钮进行批量添加。
管理Hive数据目录
您可以在Hive数据目录中添加和管理Hive表。
新建表
您可依次单击Hive数据目录左侧的
图标,找到数据库下面的表。
单击表右侧的
图标,进入新建表页面。
您可通过以下任一方式生成表基础信息和字段信息。
Copilot建表:
单击页面上方工具栏中的Copilot建表,进入Copilot Chat功能界面。
用自然语言输入建表指令(例如:
创建用户表
)。单击生成并替换,系统会根据您输入的指令,生成默认的表名及字段信息。
如表名及字段符合预期,您可单击接受。
说明如需修改部分表信息,单击接受后,可手动对系统生成的表信息进行编辑。
手动建表:
根据参数说明信息新建表。
参数
配置说明
基础信息
自定义表名、表说明等信息。
字段信息
编辑字段和字段注解信息。
手动编辑:单击字段信息列表上方的插入按钮,手动指定插入行数后,即可编辑字段名、字段类型等信息。
Copilot智能编辑:单击字段信息列表上方的生成字段或生成字段描述,系统可根据您设置的表名及表说明信息,生成相关字段及描述说明。
(可选)配置分区信息。
如需创建分区表,可在分区字段位置设置好所需的分区字段行数(支持多分区),单击插入。根据业务需求,在分区字段列表中设置分区字段名、字段类型等相关信息。
(可选)配置高级设置。
参数
配置说明
表类型
仅支持内部表。
存储位置
可自定义表的存储目录。例如
/user/hive/warehouse/hive_work
。存储格式
支持将存储格式设置为CSV、PARQUET、ORC、AVRO、JSON、SELE_DEFINE格式。系统会根据所选的存储格式,自动定义数据的输入、输出格式以及序列化和反序列化方式。
CSV:以逗号分隔的文本文件,适合简单数据结构。
PARQUET:列式存储格式,压缩率高,适合大数据分析。
ORC:优化的列式存储格式,性能优异,支持复杂数据类型。
AVRO:支持模式演化的二进制格式,适合动态数据结构。
JSON:支持嵌套结构,适合半结构化数据。
SELE_DEFINE:允许用户自定义序列化和反序列化逻辑。
配置完成后,单击上方工具栏中的发布即可完成建表。
管理表
在Hive数据目录创建表后,您可依次单击Hive数据目录左侧的图标,单击表进入表页面。
查看表。
在表页面查看所有表基本信息,也可单击具体表名查看表明细信息、基础信息和DDL信息。
删除表。
在表页面找到您所需删除的表名,单击操作栏中的删除。
重要删除后无法恢复,请谨慎操作。
查看移除Hive数据目录
如后续无需使用Hive数据目录,可查看移除对应Hive数据目录。
查看数据目录。
将Hive数据源添加到Hive数据目录后,您可单击Hive数据目录左侧的
图标,查看已添加的Hive数据源。
鼠标单击对应的Hive数据源,即可查看该Hive实例中的所有数据库信息。
解绑项目。
如无需再管理某个Hive数据目录,可鼠标右键对应的Hive数据目录,在弹框中选择解绑数据目录。