本文介绍Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据。

前提条件

操作步骤

  1. 登录EMR集群。
    1. 登录EMR on ECS控制台
    2. 单击创建的EMR集群。
    3. 单击节点管理页签,然后单击节点组左侧的+
    4. 单击ECS ID。在ECS实例页面,单击实例ID右侧的远程连接
    如果您希望使用SSH方式(SSH密钥对或SSH密码)在Windows和Linux环境中登录集群,请参见登录集群
  2. 使用Spark访问OSS-HDFS。
    1. 创建表。
      create table test_oss (c1 string) location "oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir/";
    2. 往表中插入数据。
      insert into table test_oss values ("testdata");
    3. 查询表。
      select * from test_oss;