Kubernetes是一个大规模分布式的容器编排引擎,由于其复杂性,管理与运维集群都需要较深的领域知识。为降低Kubernetes集群运维管理的难度,容器服务平台提供了AIOps套件。AIOps套件包括集群检查、集群巡检和集群诊断,可以帮助您排查问题,提升运维效率。本文介绍AIOps套件的优势、集群检查、集群巡检和集群诊断。
优势
AIOps套件由集群检查、集群巡检、集群诊断等一系列工具组成,具有以下优势。
功能 | 优势 |
在执行集群运维操作之前会先触发集群检查,评估集群是否符合运维操作需求,提升了运维变更的成功率。 | |
通过设置巡检的定时规则,定期预警集群存在的风险。 | |
提供了一整套集群诊断工具,包括Pod诊断、节点诊断、Ingress诊断、内存诊断,降低了问题排查的难度。 |
AIOps套件支持ACK托管集群、ACK专有集群和ACK Serverless集群Pro版。
集群检查
集群检查覆盖核心运维操作,例如集群升级、集群迁移、组件安装、组件升级、节点池升级等。正式执行这些运维操作前会自动触发相应的检查,仅当集群检查通过后方可执行对应的运维操作。针对失败的检查项,提供了可视化的失败原因及修复方案。更多信息,请参见集群检查。
集群巡检
得益于大量集群管理实践,容器服务平台沉淀了众多典型案例,并从中积累了丰富的集群巡检经验。集群巡检提供了以下功能。
支持扫描集群运行状况,发现集群中存在的潜在风险。
支持定期检查集群资源水位、资源配额、集群证书、组件版本等信息,提供了可视化的检查结果。
对于异常项,列出了风险级别,提供了解决方案,便于用户自行运维。
更多信息,请参见集群巡检。
集群诊断
集群诊断提供一键故障诊断能力,辅助您定位集群中出现的问题,包括Pod诊断、节点诊断、Service诊断、Ingress诊断、内存诊断。更多信息,请参见使用集群诊断。
诊断项 | 说明 |
涵盖了常见的Pod问题,例如Pod启动失败、Pod镜像拉取失败、Pod运行异常等,并在发现异常时给出相应的根因及修复方案。 | |
涵盖了常见的节点问题,例如节点NotReady、Node网络异常、运行时异常等,并在发现异常时给出相应的根因及修复方案。 | |
涵盖了常见的Service问题,例如Service异常事件、SLB后端服务器配额、SLB实例数配额等,并在发现异常时给出相应的根因及修复方案。 | |
收集Ingress组件检查、启动参数配置、Ingress Pod错误日志、Ingress Controller SLB等信息,用于诊断应用访问异常。 | |
覆盖ACK集群常见的内存问题,例如内存泄漏、内存碎片化、cgroup泄漏等,并以图表的方式展示内存整体使用情况。 |