当需要故障排查时,可以通过集群信息页面提供的巡检信息、相关云资源、集群资源监控等信息来快速定位和解决问题。本文介绍如何查看集群信息以及集群信息项。
前提条件
已创建ACS集群。
操作步骤
登录容器计算服务控制台,在左侧导航栏选择集群。
在集群页面,单击目标集群ID,然后在左侧导航栏,选择集群信息。
在集群信息页面,单击不同页签,可以查看不同维度的信息。
页签
说明
概览
选择要查看的命名空间,查看应用状态、组件状态和资源监控图表等内容。
应用状态:显示当前运行的部署、容器组、有状态副本集等应用状态的示意图,绿色图标代表正常,黄色图标代表异常。
集群风险预警:自动扫描Kubernetes集群,提示您潜在的风险和对应的解决方案,防止您的业务受损。
事件:显示集群的事件信息,例如警告和错误事件等。
资源监控:提供CPU和内存的监控图表。CPU统计单位为Cores(核),可显示小数点后3位,最小统计单位是millcores,即一个核的1/1000;内存的统计单位是Gi,可显示小数点后3位。更多相关信息,请参见Meaning of CPU和Meaning of memory。
基本信息
基本信息:集群ID、状态、地域。
集群信息:API Server连接端点、Service CIDR、RRSA OIDC、自定义证书SAN。
集群维护:配置集群维护窗口。
连接信息
获取公网和内网环境下KubeConfig文件的配置内容,用于配置通过kubectl客户端访问集群。
说明创建集群时未勾选API Server 访问配置只可以看到内网环境下KubeConfig文件的配置内容。
集群资源
集群所使用的相关云资源,包括专有网络VPC、节点虚拟交换机、安全组、日志服务Project、API Server负载均衡(SLB)等。通过单击相应的资源ID可以跳转至对应的控制台。
重要这些资源由阿里云容器计算服务进行管理,请勿随意删除或自行修改,避免集群异常,影响集群内应用的正常运行。
集群监控
对接可观测监控 Prometheus 版,对集群进行资源监控,支持快速查看负载的CPU、内存、网络等指标的使用率,带来更专业的监控与报警能力和更合适的容器场景指标。更多信息,请参见使用阿里云Prometheus监控ACS集群状态。
集群日志
集群的运行日志。
任务日志
查看集群任务、任务状态、变更时间等。失败任务将提示失败信息,方便协助问题的排查和诊断。