Spark以EMR集群的方式处理OSS-HDFS服务中的数据

本文介绍Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据。

前提条件

操作步骤

  1. 登录EMR集群。

    1. 登录EMR on ECS控制台

    2. 单击创建的EMR集群。

    3. 单击节点管理页签,然后单击节点组左侧的+

    4. 单击ECS ID。在ECS实例页面,单击实例ID右侧的远程连接

    如果您希望使用SSH方式(SSH密钥对或SSH密码)在WindowsLinux环境中登录集群,请参见登录集群

  2. 在终端执行以下命令启动Spark Shell。

    spark-shell
  3. 使用Spark访问OSS-HDFS。

    1. 创建表。

      spark.sql("CREATE TABLE test_oss (`c1` string) OPTIONS (PATH 'oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir')")
    2. 往表中插入数据。

      spark.sql("INSERT INTO TABLE test_oss SELECT 'testdata' AS c1")
    3. 查询表。

      spark.sql("SELECT c1 FROM test_oss")