文档

ACK集群生命周期及异常状态说明

更新时间:

ACK集群的生命周期涉及多个阶段和状态,从集群的创建部署、运行维护(扩容缩容、更新升级、排水移除等),到最终的删除。本文介绍ACK集群的全生命周期,帮助您更好地理解和管理集群。

集群生命周期

ACK集群在不同状态下的含义和集群的状态流转图如下。

image

集群状态

说明

初始化中(initial)

正在创建集群。

创建失败(failed)

集群创建失败。

运行中(running)

集群成功创建,运行中。

配置变更中(updating)

正在更新集群元信息。

节点移除中(removing)

正在移除集群中的节点。

升级中(upgrading)

集群升级中。

节点排水中(draining)

正在驱逐节点中的Pod资源到其他节点中重新创建,之后该节点将不可调度。

不活跃(inactive)

特定异常条件下,集群暂时无法使用。关于inactive状态下,不同状态码说明及对应的解决方案,请参见集群异常状态——不活跃(inactive)

不可用(unavailable)

集群基础云资源异常,集群不再可用。关于unavailable状态下,不同状态码说明及对应的解决方案,请参见集群异常状态——不可用(unavailable)

删除中(deleting)

正在删除集群。

删除失败(delete_failed)

删除集群失败。

已删除(deleted,该状态您不可见)

成功删除集群。

ACK会定时检测集群运行状态。如果集群符合特定的异常条件,集群将自动变更为“不活跃(inactive)”或“不可用(unavailable)”的异常状态。届时,ACK会通过短信、邮件、站内信的方式向您发送相关通知。

集群异常状态——不活跃(inactive)

“不活跃(inactive)”状态可能由不同原因导致,您可以通过状态码判断具体的异常原因。

状态码

异常状态

解决方案

KMSUnhealthy

集群开启了使用阿里云密钥管理服务KMS进行Secret的落盘加密功能,且由于阿里云账号欠费或其他原因导致KMS服务暂停,使得集群控制面无法正常运行。

  1. 登录密钥管理服务控制台

  2. 查看KMS服务暂停的原因,并恢复KMS服务。

  3. 提交工单,联系容器服务技术团队恢复集群状态。

NoPodCreatedForLongTime

ACK Serverless集群基础版中不存在任何Pod,且集群中连续30天未创建新的Pod。

提交工单恢复集群的状态,恢复后将集群升级为ACK Serverless集群Pro版

NoNodeForLongTime

ACK集群基础版中没有节点,且集群中连续14天没有节点。

提交工单恢复集群的状态,恢复后将集群升级为ACK集群Pro版

AssumeRoleNotFound

系统无法找到容器服务 Kubernetes 版的服务角色,导致集群控制面异常。

参见容器服务ACK服务角色排查容器服务 Kubernetes 版所需的角色,提交工单恢复集群的状态。

AssumeUserNotFound

系统无法找到容器服务 Kubernetes 版对应的RAM用户,导致集群控制面异常。

提交工单获取技术支持。

SecurityGroupNotFound

系统无法找到容器服务 Kubernetes 版的安全组,导致集群控制面异常。

提交工单获取技术支持。

UnderMaintenance

集群控制面处于后台维护中。

提交工单获取技术支持。

ServiceInDebt

如果您的账户余额不足以支付账单金额,您的ACK集群Pro版会处于不活跃状态,您将无法访问集群的API Server,且涉及API Server访问的操作都将无法进行,但节点上的业务仍可继续运行。

如果超过15天仍处于欠费状态,容器服务ACK将暂停为您提供服务,并删除集群的控制面资源。但ACK不会主动释放集群关联的其他云产品资源实例(包括但不限于NAT网关、SLB实例、ECS实例、ESS伸缩组等)。届时,关联云产品资源可能产生非预期行为,请及时处理。

请您及时充值,并结清账单。欠费结清后,集群将自动恢复正常状态。

集群异常状态——不可用(unavailable)

异常原因

解决方案

集群API Server的CLB实例被释放,可能包括以下情况:

  • 实例被手动释放

  • 包年包月实例到期自动释放

  • 阿里云账号欠费导致按量付费实例被释放

集群已无法恢复,请删除集群或重新创建集群。具体操作,请参见删除集群创建ACK托管集群

异常状态的影响

计费影响

集群处于“不活跃(inactive)”或“不可用(unavailable)”状态时,仍会继续收取相关集群管理费用和云产品资源费用。计费详细说明,请参见产品计费

集群操作限制

集群处于“不活跃(inactive)”或“不可用(unavailable)”状态时,仅允许执行以下集群管理操作:

  • 变更集群删除保护状态

  • 删除集群

相关文档

关于资源计费的常见问题,例如集群删除中或删除失败时是否会产生计费、集群处于哪些生命周期状态时将不会产生集群管理费用等,请参见资源计费常见问题