当您的节点状态显示为 异常 时,表示容器服务无法连接该节点。

原因分析

导致您节点异常的主要原因是由于您的节点负载过大,包括您节点的 CPU、内存、网络和 IO。

Swarm 集群

您可以通过容器服务管理控制台或阿里云云监控管理控制台查看您节点的监控数据,如下所示。

  • 通过容器服务管理控制台查看
    1. 登录 容器服务管理控制台
    2. 在 Swarm 菜单下,单击左侧导航栏中的 集群
    3. 单击目标集群的名称。
    4. 选择所要查看的节点并单击 监控
  • 通过阿里云云监控管理控制台查看
    1. 登录 云监控管理控制台
    2. 单击左侧导航栏的 云服务监控 并在下拉菜单中单击 容器服务
    3. 选择节点所在集群并单击 节点监控
    4. 选择要查看的节点并单击 监控图表。您可以查看节点的监控信息。
    说明 为了方便您实时监控节点的负载,您可以为节点创建报警规则。单击页面右上角的 创建报警规则

Kubernetes集群

您可以通过容器服务管理控制台或者通过 kubernetes 的资源分组进行查看您节点的监控数据,如下所示。

  • 通过容器服务管理控制台查看
    1. 登录 容器服务管理控制台
    2. 在 Kubernetes 菜单下,单击左侧导航栏中的 集群 > 节点
    3. 选择所需的集群,并选择所需的节点并单击右侧的 监控
  • 通过资源分组监控在阿里云监控控制台查看
    1. 登录 容器服务管理控制台
    2. 在 Kubernetes 菜单下,单击左侧导航栏中的 集群
    3. 选择所需的集群,并单击右侧的 更多 > 升级监控服务,并二次确认。
    4. 登录 云监控管理控制台
    5. 单击左侧导航栏中的 应用分组,选择集群对应的分组名称,查看组内的节点资源视图。

解决方法

您可以通过以下几种方法解决节点异常的问题:

  • 减少您部署在节点上的容器数量。
  • 限制容器使用的资源。swarm 集群参见 限制容器资源
  • 减少负载,让节点恢复正常。
  • 对节点或者集群进行扩容。
  • 为集群节点增加资源监控并报警,保证节点负载不过载。