AIOps套件概述

Kubernetes是一个大规模分布式的容器编排引擎,由于其复杂性,管理与运维集群都需要较深的领域知识。为降低Kubernetes集群运维管理的难度,容器服务平台提供了AIOps套件。AIOps套件包括集群检查、集群巡检和集群诊断,可以帮助您排查问题,提升运维效率。本文介绍AIOps套件的优势、集群检查、集群巡检和集群诊断。

优势

AIOps套件由集群检查、集群巡检、集群诊断等一系列工具组成,具有以下优势。

功能

优势

集群检查

在执行集群运维操作之前会先触发集群检查,评估集群是否符合运维操作需求,提升了运维变更的成功率。

集群巡检

通过设置巡检的定时规则,定期预警集群存在的风险。

集群诊断

提供了一整套集群诊断工具,包括Pod诊断、节点诊断、Ingress诊断、内存诊断,降低了问题排查的难度。

image
说明

AIOps套件支持ACK托管集群ACK专有集群ACK Serverless集群Pro版

集群检查

集群检查覆盖核心运维操作,例如集群升级、集群迁移、组件安装、组件升级、节点池升级等。正式执行这些运维操作前会自动触发相应的检查,仅当集群检查通过后方可执行对应的运维操作。针对失败的检查项,提供了可视化的失败原因及修复方案。更多信息,请参见集群检查

集群巡检

得益于大量集群管理实践,容器服务平台沉淀了众多典型案例,并从中积累了丰富的集群巡检经验。集群巡检提供了以下功能。

  • 支持扫描集群运行状况,发现集群中存在的潜在风险。

  • 支持定期检查集群资源水位、资源配额、集群证书、组件版本等信息,提供了可视化的检查结果。

  • 对于异常项,列出了风险级别,提供了解决方案,便于用户自行运维。

更多信息,请参见集群巡检

集群诊断

集群诊断提供一键故障诊断能力,辅助您定位集群中出现的问题,包括Pod诊断、节点诊断、Service诊断、Ingress诊断、内存诊断。更多信息,请参见使用集群诊断

诊断项

说明

Pod诊断

涵盖了常见的Pod问题,例如Pod启动失败、Pod镜像拉取失败、Pod运行异常等,并在发现异常时给出相应的根因及修复方案。

节点诊断

涵盖了常见的节点问题,例如节点NotReady、Node网络异常、运行时异常等,并在发现异常时给出相应的根因及修复方案。

Service诊断

涵盖了常见的Service问题,例如Service异常事件、SLB后端服务器配额、SLB实例数配额等,并在发现异常时给出相应的根因及修复方案。

Ingress诊断

收集Ingress组件检查、启动参数配置、Ingress Pod错误日志、Ingress Controller SLB等信息,用于诊断应用访问异常。

内存诊断

覆盖ACK集群常见的内存问题,例如内存泄漏、内存碎片化、cgroup泄漏等,并以图表的方式展示内存整体使用情况。