本文介绍Impala如何以EMR集群的方式查询OSS-HDFS服务中的数据。
操作步骤
- 登录EMR集群。
- 登录EMR on ECS控制台。
- 单击创建的EMR集群。
- 单击节点管理页签,然后单击节点组左侧的
。
- 单击ECS ID。在ECS实例页面,单击实例ID右侧的远程连接。
如果您希望使用SSH方式(SSH密钥对或SSH密码)在Windows和Linux环境中登录集群,请参见
登录集群。
- 使用Impala查询OSS-HDFS服务中的数据。
- 创建表。
CREATE EXTERNAL TABLE customer_demographics (
`cd_demo_sk` INT,
`cd_gender` STRING,
`cd_marital_status` STRING,
`cd_education_status` STRING,
`cd_purchase_estimate` INT,
`cd_credit_rating` STRING,
`cd_dep_count` INT,
`cd_dep_employed_count` INT,
`cd_dep_college_count` INT)
STORED AS PARQUET
LOCATION 'oss://bucket.endpoint/dir';
- 查询表数据。
select * from customer_demographics;