本文介绍Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据。
操作步骤
- 登录EMR集群。
- 登录EMR on ECS控制台。
- 单击创建的EMR集群。
- 单击节点管理页签,然后单击节点组左侧的
。
- 单击ECS ID。在ECS实例页面,单击实例ID右侧的远程连接。
如果您希望使用SSH方式(SSH密钥对或SSH密码)在Windows和Linux环境中登录集群,请参见
登录集群。
- 使用Spark访问OSS-HDFS。
- 创建表。
create table test_oss (c1 string) location "oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir/";
- 往表中插入数据。
insert into table test_oss values ("testdata");
- 查询表。