Trino以EMR集群的方式查询OSS-HDFS服务中的数据

本文介绍Trino如何以EMR集群的方式查询OSS-HDFS服务中的数据。

前提条件

  • 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群,并在创建集群时选择了Trino服务。具体步骤,请参见创建集群

  • 已开通并授权访问OSS-HDFS服务。具体操作,请参见开通OSS-HDFS服务

操作步骤

  1. 登录EMR on ECS控制台,创建EMR集群。

    创建EMR集群时,确保选择的产品版本为EMR-3.46.2及以上版本或者EMR-5.12.2及以上版本,集群存储根路径选择已开通OSS-HDFS服务的Bucket,其他参数保留默认配置。具体步骤,请参见创建集群

  2. 查询OSS-HDFS服务中的数据。

    1. 登录Trino控制台。

      您可以在EMR on ECS控制台集群服务Trino配置页签下,获取<trino_server_address>和<trino_server_port>。

      trino --server <Trino_server_address>:<Trino_server_port> --catalog
    2. 创建OSS中的schema。

      create schema testDB with (location='oss://<Bucket>.<Endpoint>/<schema_dir>');
    3. 使用schema。

      use testDB;
    4. 创建表。

      create table tbl (key int, val int);
    5. 往表中插入数据。

      insert into tbl values (1,666);
    6. 查询表。

      select * from tbl;