启用在离线混部监控

ACK集群集成了阿里云Prometheus,提供可视化的Prometheus监控大盘。在集群中开启动态资源超卖功能后,您可以使用ACK提供的在离线混部监控功能,查看混部资源的数据情况,例如混部CPU和内存资源总量、CPU和内存资源分配率等。

前提条件

大盘入口

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 > Prometheus 监控

  3. Prometheus监控页面,单击其他 > k8s-reclaimed-resource

大盘说明

在离线混部监控大盘提供如下功能:

  • 混部收益情况:提供在离线混部场景的资源收益看板,支持查看和分析使用混部的资源收益情况。

  • 混部资源可观测:提供在离线混部场景中关键指标的可观测能力,支持在集群、节点池、节点以及Pod维度查询混部资源的容量情况。

下方为在离线混部监控的大盘示例。大盘会不定期进行升级,请以您的实际界面为准。

集群混部收益概览

此区域展示在离线混部的资源收益和使用趋势。

混部资源总量和分配量集群混部收益情况

概念

说明

非混部资源

ACK节点上所有可调度(Allocatable)的物理资源,称为非混部资源。非混部资源的总量和节点的机器规格有关,不受在离线混部影响。

混部资源

启用动态资源超卖功能可以挖掘集群中的空闲物理资源,即可用的混部资源。混部资源的总量与实际资源利用率有关,会随着节点的空闲物理资源量动态变化,是在离线混部额外提供的可调度资源,也是衡量在离线混部收益的关键指标之一。

混部资源总量

分为CPU和内存两个资源维度,分别展示了集群当前可供应用混部调度的CPU资源总量和内存资源总量。如上图所示,集群共有118核CPU资源和487 GiB内存资源可供应用混部。

混部资源总量越大,表明集群中可供应用混部的空闲物理资源越多,通过在离线混部调度更多应用的潜在收益越大。

混部资源分配量

分为CPU和内存两个资源维度,分别展示了集群当前为应用混部已分配的CPU资源量和内存资源量。如上图所示,集群共有2核CPU资源和1 GiB内存资源已为应用混部分配。

混部资源分配量越大,表明集群中已调度的离线混部资源越多,通过在离线混部调度更多应用的收益越大。

混部资源分配率

分为CPU和内存两个资源维度,分别展示了集群当前为应用混部的CPU资源分配率和内存资源分配率(资源分配率=资源分配量÷资源总量)。如上图所示,集群中混部CPU资源分配率为1.70%,混部内存资源分配率为0.21%。

混部资源分配率越大,说明集群对混部资源的分配比例越高,在离线混部的收益越大。

混部资源使用趋势混部资源使用趋势

概念

说明

混部Pod数量

分为使用非混部资源调度的Pod数目和使用混部资源调度的Pod数目。混部Pod数量比例展示了集群中使用非混部资源调度和使用混部资源调度的Pod数目的相对比例。

资源混部比例

分为CPU和内存两个资源维度,资源混部比例展示了集群当前可供应用非混部调度的资源量和可供应用混部调度的资源量。集群中的空闲物理资源越多,混部资源的比例越高,表示有更多资源可供混部调度。

集群混部资源详情

集群资源视图单机资源视图Pod资源视图区域分别展示了在集群、节点和Pod维度的资源使用量和资源申请量。

集群资源视图集群资源视图-1集群资源视图-2

概念

说明

集群资源使用量

分为CPU和内存两个资源维度,每个维度中包含集群的物理资源总量、非混部Pod的资源使用量、混部Pod的资源使用量以及系统基础组件的资源使用量。

集群资源使用量可衡量当前集群不同类型资源的使用情况,若三种使用量指标之和远小于物理资源总量,则表明集群的平均利用率较低,有较多物理资源处于空闲状态。

集群混部资源申请量

分为CPU和内存两个资源维度,每个维度中包含资源的可供调度的混部资源总量和当前已申请的混部资源量。资源申请量越接近资源总量,混部资源的申请比例越大,表明混部资源分配越充分。

集群非混部资源申请量

分为CPU和内存两个资源维度,每个维度中包含资源的可供调度的非混部资源总量和当前已申请的非混部资源量。资源申请量越接近资源总量,非混部资源的申请比例越大,说明非混部资源分配越充分。

单机资源视图

k8s-reclaimed-resource页签上方配置node_labelnode_label_value,查看不同节点的单机资源视图。

节点池视图

部分过滤项说明如下:

过滤项

说明

node_label_value

默认值为All,表示集群混部收益情况和集群资源视图区域统计范围为集群的所有节点。

可选择目标节点池,在集群混部收益情况和集群资源视图区域查看该节点池的资源视图。

node_label

支持按不同的节点Label来选中节点,具体操作,请参见页面上方的使用提示

单机资源视图-1单机资源视图-2单机资源视图-3

概念

说明

节点资源混部比例

分为CPU和内存两个资源维度,每个维度包含节点上非混部资源的总量和混部资源的总量。非混部资源总量和混部资源总量堆叠展示,表示了两者在单机资源上占据的相对比例。

节点资源使用量

分为CPU和内存两个资源维度,内存资源按照是否包含Cache部分细分为不含Cache和含Cache的两个子维度。每个维度包含节点上的物理资源总量、非混部Pod的资源使用量、混部Pod的资源使用量以及系统基础组件的资源使用量。

节点资源使用量可用来衡量当前节点不同类型资源的使用情况,若三种使用量指标之和远小于物理资源总量,表明节点的平均利用率较低,有较多物理资源处于空闲状态。

节点混部资源申请量

分为CPU和内存两个资源维度,每个维度包含节点上的混部资源总量和混部资源已申请量。资源申请量越接近资源总量,混部资源的申请比例越大,表明混部资源分配越充分。

各Pod混部资源申请量

分为CPU和内存两个资源维度,包含节点上所有混部Pod的资源申请量。

各Pod混部资源利用率

分为CPU和内存两个资源维度,包含节点上所有混部Pod的资源利用率。

Pod资源视图

k8s-reclaimed-resource页签上方配置pod_namespacepod_name,查看不同Pod的资源视图。

Pod资源视图-1Pod资源视图-2Pod资源视图-3

概念

说明

Pod混部资源量

分为CPU和内存两个资源维度,每个维度包含Pod对混部资源的使用上限、申请量和实际用量。

Pod混部资源利用率

分为CPU和内存两个资源维度,每个维度包含Pod使用混部资源的利用率。

各容器混部资源量

分为CPU和内存两个资源维度,每个维度包含Pod内各个容器对混部资源的使用上限、申请量和实际用量。

FAQ

为什么k8s-reclaimed-resource页签中,集群混部收益情况区域没有数据?

  1. 查看是否已安装ack-koordinator组件。

    1. 登录容器服务管理控制台,在左侧导航栏单击集群

    2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择应用 > Helm

    3. Helm页面查看是否存在ack-koordinator组件。

      • 不存在:参见安装和管理组件安装ack-koordinator组件,然后执行下方步骤。

      • 已存在:直接执行下方步骤。

  2. 查看在离线混部监控大盘是否显示相关数据。

    若不显示,请执行以下步骤:

    1. 登录ARMS控制台

    2. 在左侧导航栏选择Prometheus监控 > 实例列表,进入可观测监控 Prometheus 版的实例列表页面。

    3. 在页面左上角选择目标地域,单击Prometheus实例名称,然后在左侧导航栏单击指标管理

    4. 在左侧筛选区域的指标文本框中搜索并选择kube_node_labels,查看指标的数据详情。