资源监控是Kubernetes中最常见的监控方式,通过资源监控可以快速查看负载的CPU、内存、网络等指标的使用率。在阿里云容器服务中,资源监控已经与云监控互通,新建的集群默认安装与集成云监控。本文介绍如何在控制台查看基础资源的监控及如何配置报警。
前提条件
功能特性
- 提供全集群视角指标,洞悉集群概况。
- 更专业的监控与报警能力。
老版云监控容器监控功能全面升级,提供更加专业的容器场景基础监控能力。从集群命名空间、节点、工作负载及Pod等原生Kubernetes概念视角提供关键指标监控能力。报警功能全面升级,支持Kubernetes场景不同视角下配置对应报警规则。
- 更合适的容器场景指标。
在宿主机基础设施层、容器PaaS层及Kubernetes调度层不同场景下使用最合适的指标。例如,容器中影响Kubernetes调度的内存指标,会使用容器工作内存的专用指标,与宿主机的内存Usage区分。
进入资源监控
方式一:从容器服务控制台进入资源监控
方式二:从云监控控制台进入资源监控
配置指标报警的场景
场景 | 场景描述 | 指标报警配置 |
---|---|---|
集群水位健康状况,以集群或节点配置水位报警。 | 当集群或集群节点发生水位等指标异常时,第一时间上报集群资源异常,避免影响业务。此场景推荐以集群或集群节点的方式配置水位报警规则。 | 配置报警规则时,选择资源范围为集群或节点,配置以整个集群、集群任一节点出现指标异常时的报警规则。选择节点时配置全部节点,则当该集群的任一节点出现规则描述中的指标异常时,则触发报警。 |
异常容器水位状况,以对应集群下的任一Pod统一报警。 | 当集群发生资源水位异常情况时,通常需要分解问题,找到具体Pod。此场景推荐以该集群中的任一Pod的方式配置水位报警规则。 | 配置报警规则时,选择资源范围为容器组(Pod),选择命名空间及容器组Pod为全部,则当该集群的任一Pod出现规则描述中的指标异常时,则触发报警。 |
按命名空间多租户使用集群场景,针对对应集群下的指定命名空间的Pod设置报警。 | 通常一个集群会被多个应用共享,通过命名空间来拆分应用是一种Kubernetes的常用应用多租户方式。当应用所在的命名空间发生水位异常时,您可通过报警第一时间感知。此场景推荐以指定命名空间下任一Pod的方式配置水位报警规则。 | 配置报警规则时,选择资源范围为容器组Pod,选择名字空间为对应应用所在命名空间,选择容器组Pod为全部,则当该命名空间下的任一Pod出现规则描述中的指标异常时,则触发报警。 |
应用指标水位状况预警,针对对应集群下指定命名空间的指定应用(工作负载)的所属Pod设置报警。 | 通常一个集群会被多个应用共享,通过工作负载来拆分应用是一种Kubernetes的常用应用多租户方式,例如一个应用对应一个Deployment。当应用所对应的Deployment发生水位异常时,您可通过报警第一时间感知。此场景推荐以指定工作负载下任一Pod的方式配置水位报警规则。 | 配置报警规则时,选择资源范围为容器组Pod,选择名字空间为对应应用所在命名空间,选择应用的工作负载类型。目前支持的Kubernetes工作负载类型有:无状态(Deployment)、有状态(StatefulSet)、守护进程集(DaemonSet)、任务(Job)、定时任务(CronJob)。选择容器组(Pod)为任一Pod,则当该工作负载下的任一Pod出现规则描述中的指标异常时,则触发报警。 |
配置指标报警规则
步骤一:创建报警联系人并关联报警联系组
步骤二:创建指标报警规则
结果验证
旧版资源监控
若容器服务Kubernetes版集群的metrics-server组件未升级到V0.3.8.5及以上版本,可按以下操作进入旧版资源监控页面。