如果您所使用的数据集群开启了高可用,那么在查询高可用集群中的HDFS数据时,您需要进行额外的配置。建议您按照本文的操作步骤来配置StarRocks集群,以实现HDFS的高可用性。
前提条件
已创建包含了HDFS服务,并且开启了服务高可用的集群(例如DataLake或Custom类型),详情请参见创建集群。
说明本文创建的是包含HDFS服务,且开启了服务高可用的DataLake集群。
已创建StarRocks集群,详情请参见创建StarRocks集群。
使用限制
创建的两个集群需要在同一个VPC下,并且在同一个可用区下。
操作步骤
进入StarRocks配置页面。
在顶部菜单栏处,根据实际情况选择地域和资源组。
在集群管理页面,单击目标集群操作列的集群服务。
在集群服务页面,单击StarRocks服务区域的配置。
修改hdfs-site.xml配置。
在StarRocks配置页面,单击hdfs-site.xml页签。
新增或修改以下配置项。
参数
说明
dfs.nameservices
配置值与DataLake集群HDFS服务hdfs-site.xml配置文件里dfs.nameservices的值保持一致。
默认值为hdfs-cluster。
dfs.ha.namenodes.[nameservice ID]
配置值与DataLake集群HDFS服务hdfs-site.xml配置文件里的相应配置项的值保持一致。
EMR-3.x版本默认值为nn1,nn2;EMR-5.x 版本默认值为nn1,nn2,nn3。
dfs.namenode.rpc-address.[nameservice ID].[name node ID]
配置值与DataLake集群HDFS服务hdfs-site.xml配置文件里的相应配置项的值保持一致。
对于EMR-3.x版本,需要配置dfs.namenode.rpc-address.hdfs-cluster.nn1,dfs.namenode.rpc-address.hdfs-cluster.nn2。
对于EMR-5.x 版本,需要配置dfs.namenode.rpc-address.hdfs-cluster.nn1,dfs.namenode.rpc-address.hdfs-cluster.nn2,dfs.namenode.rpc-address.hdfs-cluster.nn3。
dfs.client.failover.proxy.provider.[nameservice ID]
配置值与DataLake集群HDFS服务hdfs-site.xml配置文件里的相应配置项的值保持一致。
保存配置。
单击下方的保存。
在弹出的对话框中,输入执行原因,单击保存。
重启StarRocks服务。
在StarRocks服务页面,选择右侧的
。在弹出的对话框中,输入执行原因,单击确定。
在弹出的对话框中,单击确定。
重启后即可正常查询高可用集群中的HDFS数据。
相关文档
如果需要访问启用了Kerberos认证的高安全数据集群,您必须使用有效的Kerberos凭证进行身份验证,详情请参见配置StarRocks集群以访问高安全数据集群。