Impala以EMR集群的方式查询OSS-HDFS服务中的数据

本文介绍Impala如何以EMR集群的方式查询OSS-HDFS服务中的数据。

前提条件

操作步骤

  1. 登录EMR集群。

    1. 登录EMR on ECS控制台

    2. 单击创建的EMR集群。

    3. 单击节点管理页签,然后单击节点组左侧的+

    4. 单击ECS ID。在ECS实例页面,单击实例ID右侧的远程连接

    如果您希望使用SSH方式(SSH密钥对或SSH密码)在Windows和Linux环境中登录集群,请参见登录集群

  2. 使用Impala查询OSS-HDFS服务中的数据。
    1. 创建表。
      CREATE EXTERNAL TABLE customer_demographics (
       `cd_demo_sk` INT,
       `cd_gender` STRING,
       `cd_marital_status` STRING,
       `cd_education_status` STRING,
       `cd_purchase_estimate` INT,
       `cd_credit_rating` STRING,
       `cd_dep_count` INT,
       `cd_dep_employed_count` INT,
       `cd_dep_college_count` INT)
      STORED AS PARQUET
      LOCATION 'oss://bucket.endpoint/dir';
    2. 查询表数据。
      select * from customer_demographics;