创建独立的Trino集群后无法直接使用,需要进行相关的配置。本文为您介绍创建独立的Trino集群后,如何配置连接器和数据湖元数据,以使用独立的Trino集群。
背景信息
在使用开源大数据平台E-MapReduce控制台时,您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务,或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点:
- Trino独享集群资源,受其他组件干扰少。
- 支持弹性伸缩。
- 支持数据湖分析与实时数仓。
- 不存储数据。
说明
- Hudi和Iceberg不是实际的进程 ,不占集群资源。
- Hue和JindoData服务(或SmartData服务),如果不使用,可以选择停止。
如果要使用独立的Trino集群,需要先创建一个DataLake集群、自定义集群或Hadoop集群,或使用已有的DataLake集群、自定义集群或Hadoop集群作为数据集群。
配置连接器
在待使用的连接器中配置查询对象。本文以Hive连接器为例介绍。
配置数据湖元数据
如果数据表的元数据使用了DLF统一元数据,则还需为Hive、Iceberg和Hudi等连接器进行额外的配置。此时查询不再依赖数据集群,hive.metastore.uri可以任意填写,Trino能够直接访问到同一个账号下的DLF元数据。
数据湖元数据配置的详细信息如下表。
参数 | 描述 | 备注 |
---|---|---|
hive.metastore | MetaStore类型。 | 固定值为DLF。 |
dlf.catalog.region | DLF服务的地域名。 | 详情请参见已开通的地域和访问域名。
说明 请和dlf.catalog.endpoint选择的地域保持一致。
|
dlf.catalog.endpoint | DLF服务的Endpoint。 | 详情请参见已开通的地域和访问域名。
推荐您设置dlf.catalog.endpoint参数为DLF的VPC Endpoint。例如,如果您选择的地域为cn-hangzhou地域,则dlf.catalog.endpoint参数需要配置为dlf-vpc.cn-hangzhou.aliyuncs.com。
说明 您也可以使用DLF的公网Endpoint,如果您选择的地域为cn-hangzhou地域,则dlf.catalog.endpoint参数需要配置为dlf.cn-hangzhou.aliyuncs.com。
|
dlf.catalog.akMode | DLF服务的Access Key模式。 | 建议配置为EMR_AUTO。 |
dlf.catalog.proxyMode | DLF服务的代理模式。 | 建议配置为DLF_ONLY。 |
dlf.catalog.uid | 阿里云账号的账号ID。 | 登录账号信息,请通过用户信息页面获取。![]() |