文档

ACK集群生命周期及异常状态说明

更新时间:

ACK集群的生命周期涉及多个阶段和状态,从集群的创建部署、运行维护(扩容缩容、更新升级、排水移除等),到最终的删除。本文介绍ACK集群的全生命周期,帮助您更好地理解和管理集群。

集群生命周期

ACK集群在不同状态下的含义和集群的状态流转图如下。

image

集群状态

说明

初始化中(initial)

正在创建集群。

创建失败(failed)

集群创建失败。

运行中(running)

集群成功创建,运行中。

配置变更中(updating)

正在更新集群元信息。

扩缩容中(scaling)

正在扩容或缩容集群中的节点。

节点移除中(removing)

正在移除集群中的节点。

升级中(upgrading)

集群升级中。

节点排水中(draining)

正在驱逐节点中的Pod资源到其他节点中重新创建,之后该节点将不可调度。

不活跃(inactive)

特定异常条件下,集群暂时无法使用。关于inactive状态下,不同状态码说明及对应的解决方案,请参见集群异常状态——不活跃(inactive)

不可用(unavailable)

集群基础云资源异常,集群不再可用。关于unavailable状态下,不同状态码说明及对应的解决方案,请参见集群异常状态——不可用(unavailable)

删除中(deleting)

正在删除集群。

删除失败(delete_failed)

删除集群失败。

已删除(deleted,该状态您不可见)

成功删除集群。

ACK会定时检测集群运行状态。如果集群符合特定的异常条件,集群将自动变更为“不活跃(inactive)”或“不可用(unavailable)”的异常状态。届时,ACK会通过短信、邮件、站内信的方式向您发送相关通知。

集群异常状态——不活跃(inactive)

“不活跃(inactive)”状态可能由不同原因导致,您可以通过状态码判断具体的异常原因。

状态码:KMSUnhealthy

异常原因

集群开启了使用阿里云密钥管理服务KMS进行Secret的落盘加密功能,且由于阿里云账号欠费或其他原因导致KMS服务暂停,使得集群控制面无法正常运行。

解决方案

  1. 登录密钥管理服务控制台

  2. 查看KMS服务暂停的原因,并恢复KMS服务。

  3. 提交工单,联系容器服务技术团队恢复集群状态。

状态码:NoPodCreatedForLongTime

异常原因

ACK Serverless集群基础版中不存在任何Pod,且集群中连续30天未创建新的Pod。

解决方案

提交工单恢复集群的状态,恢复后将集群升级为ACK Serverless集群Pro版

状态码:NoNodeForLongTime

异常原因

ACK集群基础版中没有节点,且集群中连续30天没有节点。

解决方案

提交工单恢复集群的状态,恢复后将集群升级为ACK集群Pro版

状态码:AssumeRoleNotFound

异常原因

系统无法找到容器服务 Kubernetes 版的服务角色,导致集群控制面异常。

解决方案

参见容器服务ACK服务角色排查容器服务 Kubernetes 版所需的角色,提交工单恢复集群的状态。

状态码:AssumeUserNotFound

异常原因

系统无法找到容器服务 Kubernetes 版对应的RAM用户,导致集群控制面异常。

解决方案

提交工单获取技术支持。

状态码:SecurityGroupNotFound

异常原因

系统无法找到容器服务 Kubernetes 版的安全组,导致集群控制面异常。

解决方案

提交工单获取技术支持。

状态码:UnderMaintenance

异常原因

集群控制面处于后台维护中。

解决方案

提交工单获取技术支持。

状态码:ServiceIndebt

异常原因及相关影响

如果您的账户余额不足以支付账单金额,您的ACK集群Pro版会处于不活跃状态,您将无法访问集群的API Server,且涉及API Server访问的操作都将无法进行,但节点上的业务仍可继续运行。

如果超过15天仍处于欠费状态,容器服务ACK将暂停为您提供服务,并删除集群的控制面资源。但ACK不会主动释放集群关联的其他云产品资源实例(包括但不限于NAT网关、SLB实例、ECS实例、ESS伸缩组等)。届时,关联云产品资源可能产生非预期行为,请及时处理。

解决方案

请您及时充值,并结清账单。欠费结清后,集群将自动恢复正常状态。

集群异常状态——不可用(unavailable)

异常原因

集群API Server的CLB实例被释放,可能包括以下情况:

  • 实例被手动释放

  • 包年包月实例到期自动释放

  • 阿里云账号欠费导致按量付费实例被释放

解决方案

集群已无法恢复,请删除集群或重新创建集群。具体操作,请参见删除集群创建ACK托管集群

异常状态的影响

计费影响

集群处于“不活跃(inactive)”或“不可用(unavailable)”状态时,仍会继续收取相关集群管理费用和云产品资源费用。计费详细说明,请参见产品计费

集群操作限制

集群处于“不活跃(inactive)”或“不可用(unavailable)”状态时,仅允许执行以下集群管理操作:

  • 变更集群删除保护状态

  • 删除集群

相关文档

关于资源计费的常见问题,例如集群删除中或删除失败时是否会产生计费、集群处于哪些生命周期状态时将不会产生集群管理费用等,请参见资源计费常见问题

  • 本页导读 (1)