Data Warehouse的创建
专业版CDP支持使用数据服务Data Warehouse,本文为您介绍如何在Data Warehouse服务中创建虚拟数仓,以管理、分析和操作Base集群中的数据。
前提条件
由于Data Service集群的Management Console部署在内网中,因此需要通过SSH隧道访问。隧道的打通请参见通过SSH隧道访问Cloudera Manager服务组件Web UI。
在FreeIPA中新增用户名为hue的用户。Impala虚拟数仓依赖该用户进行角色扮演以读取数据,新增用户请参见在FreeIPA中添加用户。
Data Warehouse启动步骤
Step 1:登录DataService集群的Management Console,点击Data Warehouse。
Step 2:激活默认环境,Delegation Username必须是hue(Impala依赖该角色进行角色扮演以读取数据),Delegation Password为在FreeIPA中创建hue用户的密码。
点击Activate后等待几分钟,Environment和Database Catalog就会进入running状态。
Step 3:创建虚拟数仓
目前虚拟数仓支持hive和impala两种类型:点击Add即可选择需要的数仓类型。
参考上图配置,点击Create即可创建hive虚拟数仓。
参考上图配置,点击Create创建Impala虚拟数仓。
Step 4:执行查询
在创建几分钟后,虚拟数仓处于Running状态即表明虚拟数仓创建成功。
点击Hive Warehouse的Hue按钮,进入Hue UI,即可执行如下SQL命令创建表user,并且往表中添加几条数据。
CREATE TABLE `user`(id INT, name STRING);
INSERT INTO `user` VALUES
(1, "Legolas"),
(2, "Alex"),
(3, "Haley"),
(4, "Luke");
点击Impala Warehouse的Hue按钮,进入Hue UI,执行如下的查询命令即可查询到在hive虚拟数仓中添加的数据。
SELECT * FROM `user`;