本文介绍如何解决MSE Nacos实例连接失败问题。
问题现象
当程序连接MSE Nacos出现连接失败问题时,可能会出现如下几种报错。
Client not connected,currentstatus:STARTING
Client not connected,currentstatus:UNHEALTHY
no available server, currentServerAddr: xxxxx
Connection refused
问题原因
可能是如下几种原因,导致程序连接MSE Nacos出现连接失败。
应用程序的域名或端口配置错误。
客户端版本过高,但MSE实例不是专业版。
Nacos容量不足。
访问Nacos集群时,网络异常。
使用VPN导致的网络问题。
客户端监控存在高CPU使用率、频繁FullGC等问题。
解决方案
在错误所在的客户端节点上,使用
ping
、telnet
和curl
等命令,访问MSE Nacos集群,排查是否存在网络问题。ping ${mse.nacos.host} telnet ${mse.nacos.host}:8848 telnet ${mse.nacos.host}:9848 curl ${mse.nacos.host}:8848/nacos/v1/ns/service/list
检查客户端节点上应用的相关配置,是否配置了正确的MSE实例域名、端口等信息。
如果您使用EDAS或SAE部署注册中心,需要在部署时打开使用应用程序配置的注册中心。
具体操作,请参见EDAS选择注册中心运维方式或SAE使用MSE的Nacos注册中心。
如果报错信息为
Client not connected,current status:STARTING
且确认配置的域名及端口无误,可能是您使用了Nacos-Client 2.0以上的版本,但您的MSE Nacos实例版本为基础版。解决此类问题,请升级Nacos实例版本至专业版的最新版本。具体操作,请参见Nacos基础版升级为专业版或开发版。
如果报错信息为
Connection refused
,请从紧随其后的报错信息中查看实际连接的地址与MSE实例的域名是否不相同。例如Connection refused: /127.0.0.1:9848
说明某些配置错误地指向了本机地址。若不相同,请在部署的代码、配置文件、客户端所在节点的环境变量及JVM参数中查找错误信息后的实际链接,将其修改为MSE实例的域名后重试。
如果使用了VPN,请检查VPN设置是否正确。若不正确,请关闭VPN或修改VPN设置后重试。
若通过上述步骤还无法定位问题,请在MSE控制台的监控中心页面,查看Nacos的如下信息:
如何查看Nacos监控中心的数据,请参见监控引擎。
在概览页签,查看引擎的每秒查询数和每秒操作数是否超过了每秒处理请求数(TPS)。
关于每秒处理数的取值,请参见实例能力评估。
在连接数监控页签,查看长链路数量是否超过了连接数。
关于连接数的取值,请参见实例能力评估。
在jvm监控页签,查看引擎是否频繁出现Full GC。
说明No data表示从未进行过Full GC。
在资源监控页签,查看资源的入口流量和出口流量是否超出购买时指定的带宽大小。
说明Nacos引擎的网络类型为公网网络时,才需关注带宽大小。
在资源监控页签,查看资源的内存使用率和CPU使用率是否接近或超过100%,导致超出承受能力后被限流。
资源的内存使用率和CPU使用率接近或超过100%,请尝试变更实例规格进行升配。关于如何变更实例规格,请参见变更实例规格。