作为企业IT成本管理人员,如果您需要多维度了解集群资源使用量及成本分布,获取成本节约建议,从而提升集群资源利用率,您可以启用ACK集群提供的成本洞察功能。启用后,您可以查看指定财务治理周期内,指定集群、部门、应用的成本和资源使用情况,满足多种场景的成本估算、分摊与核算的需求。
前提条件
已经完成阿里云容器服务 ACK 接入云监控2.0。
为什么使用成本洞察
通过云原生技术进行IT信息化转型是很多企业正在进行的变革,IT成本优化是企业信息化转型的重要目标。您可以通过使用云原生技术的共享、隔离、弹性等能力,非常简单地进行成本优化。相比基于传统的容量规划的IT成本管理方式,云原生的IT成本管理会带来更大的挑战。典型问题如下:
如何准确地统计ACK集群的费用
如何更准确地估算一个Pod的费用
如何更准确地估算在线应用或离线作业的费用
如何通过命名空间(部门)来分摊ACK集群管理费用
如何通过可视化的方式发现集群中的成本浪费并进行优化
图 1. 不同集群利用率
为了解决这些问题,ACK提供了成本洞察功能。成本洞察是FinOps(Finance+DevOps,是企业管理和优化云成本的一种方案)的重要环节,贯穿了整个成本治理流程,例如日常的成本趋势检查、成本异常时的问题分析、实施优化手段后的效果评估等。
成本洞察大盘的维度

维度  | 说明  | 
CS Cost Overview  | 对集群整体资源和成本情况的洞察,能够反映集群成本的整体健康状况。对于一个集群,首先需要关注整个集群的费用趋势变化,以判断成本是否符合预期。在集群成本变化呈现非正常趋势时,您可以结合大盘数据进一步排查根本原因。  | 
CS Cost Namespace  | 如果您的企业以命名空间维度划分部门或业务,您可以筛选命名空间,查看指定命名空间的资源和成本信息。  | 
CS Cost Node Pool  | 集群资源维度成本情况的洞察。以ECS为主的计算资源往往是集群费用的主要组成部分,也是IT运维人员最直接管理的资源。节点池成本洞察能够为您提供节点池资源使用分析和付费策略的选择。  | 
CS Cost Application  | 侧重于场景化的成本优化。您可以使用Label通配符(Label Selector)筛选出指定应用,进行成本和资源的统计。基于Label Selector,您不仅可以监控单个应用的成本和资源用量,还可以监控多个相关应用。 例如,在大数据工作流的场景下,您可以为流程中的所有应用加相同的Label,从而对整个工作流业务进行成本分析。  | 
功能入口
登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择。
在容器洞察的导航栏,选择。
在右侧可视化大盘页面,单击不同页签,查看成本可视化大盘。
CS Cost Overview
CS Cost Namespace
CS Cost Node Pool
CS Cost Application
CS Cost Overview 集群维度成本分析
筛选维度

参数选项  | 描述  | 
集群账单成本  | 集群成本统计指标选项,包含优惠后实际账单成本和原价账单成本统计: 
 关于应付金额和官网价的详细介绍,请参见明细账单。 说明  集群中应用部分成本统计只会按原价账单成本进行统计,包括Namespace、Pod等应用维度成本统计。  | 
成本分摊模型  | 成本分摊模型选项,包含单资源模型和权重混合资源模型,具体分为如下几类。 
 关于成本分摊模型选择的详细介绍,请参见成本估算策略介绍。  | 
时间范围  | 选择大盘时间范围,您可以设置该项查看不同时间范围的成本、资源趋势。  | 
集群成本概览
指标  | 描述  | 
  | 这里的展示的数据结果与您选择的成本分摊模型选项有关。大盘默认CPU模型选项,使用CPU资源请求量估算Pod成本。  | 
  | 成本费用统计,其中昨日集群花费、花费日环比、本周累计花费和本月累计花费为本集群的云资源的账单成本统计。 本周累计、本月累计花费分别为自然周、自然月的账单花费统计。由于账单出账周期存在T+1延迟,周一将不显示本周累计花费数据,每月第一日也将不显示本月累计花费的统计值。 花费日环比为昨日集群成本与前一天之间的环比: 
  | 
集群花费&集群容量趋势图  | 集群花费和集群容量趋势图,黄色曲线表示成本消费,蓝色曲线表示实际的集群容量。通常情况下,两条曲线会存在一定的相关性。 对比两者相关性,如果发现两者呈现趋势不一致,表明集群的单位核成本异常。请检查是否有资源花费过高。  | 
  | 
 说明  
 
  | 
稳定性&效率分析
指标  | 描述  | 
  | 展示集群中各种QoS的Pod数量以及总资源用量。  | 
集群Pod资源使用率分析  | 提供集群所有Pod的基础信息和资源使用率(Usage/Request),同时支持过滤和排序。您可以通过该功能批量查看集群中资源水位最高或最低的工作负载。  | 
Burstable Pod - 资源用量分析  | 查看QoS类为Burstable Pod的资源配置情况,同时支持过滤和排序。您可以通过该功能查看每个Burstable Pod的CPU、内存等资源的请求(Request)和限制(Limit)情况,便于您了解Pod所消耗的集群资源并识别潜在的资源瓶颈。  | 
Best Effort Pod - 资源用量分析  | 查看QoS类为BestEffort Pod的资源配置情况,这类Pod一般具有较高稳定性风险,您可以通过过滤和排序列表,来检查是否有预期外的BestEffort Pod,以便及时处理来规避风险。  | 
关于稳定性&效率分析功能的更多信息,请参见使用成本洞察识别集群资源风险。
集群费用分析
指标  | 描述  | 
  | 一个集群中会包含多种云产品,不同云产品的使用方式、计费模型不同,会导致云产品产生的费用存在差异。您可以通过成本趋势和组合查看不同的云产品消费情况,从而进行成本决策。  | 
实际花费趋势(集群维度)  | 每日集群的总费用成本趋势统计。  | 
实际花费趋势(节点池维度)  | 集群中各节点池或虚拟节点(Virtual Node)的节点账单成本分析。  | 
花费估算分析(命名空间维度) - 原价账单成本  | 
  | 
集群计算资源的请求&使用率趋势图  | 使用场景: 
 趋势图含义: 
 应用已分配且未使用资源=绿色柱状图-黄色柱状图 集群剩余资源可分配量=Y轴-绿色柱状图 分析流程: 
  | 
  | 云产品维度、云产品实例维度的集群每日账单列表。  | 
CS Cost Namespace 命名空间维度成本分析
命名空间大盘能够通过命名空间筛选、展示各命名空间的资源和成本信息。命名空间常对应于公司的部门或团队。
筛选维度
参数选项  | 描述  | 
命名空间(Namespace)  | 选择分析的集群的命名空间,默认为ALL,即整个集群。  | 
成本分摊模型  | 成本分摊模型选项,包含单资源模型和权重混合资源模型,具体分为如下几类。 
 关于成本分摊模型选择的详细介绍,请参见成本估算策略介绍。  | 
实际/原价账单  | 集群成本统计指标选项,包含优惠后实际账单成本和原价账单成本统计: 
 关于应付金额和官网价的详细介绍,请参见明细账单。  | 
时间范围  | 选择大盘时间范围,默认为最近7天。您可以设置该项查看不同时间范围的成本、资源趋势。  | 
费用概览
指标  | 描述  | 
  | 您可以通过CPU、内存指标判断命名空间资源浪费情况。指标含义如下: 
  | 
命名空间实时成本估算  | 命名空间的实时估算成本,是命名空间内所有Pod估算成本之和。  | 
命名空间费用分摊  | 命名空间的费用分摊值,是命名空间按估算比例对集群实际费用的分摊。  | 
成本明细及趋势
指标  | 描述  | 
每核时单位价格  | Pod所在的节点的CPU每核每小时的单价趋势统计。  | 
CPU/内存 资源使用率趋势  | 命名空间下CPU和内存资源使用率趋势统计。  | 
  | 资源分配情况和真实消耗情况的趋势,蓝色曲线表示已分配的资源,红色曲线表示真实消耗的资源。 Pod调度时,节点会为Pod预分配一定的资源,但容器进程真实消耗的资源通常与预分配资源不一致。③能反映出二者间的关系,从而供您进行浪费资源的优化。  | 
  | 
  | 
Pod资源请求量排行  | 统计分析集群中Pod资源请求量大的应用,用于容量规划等场景。  | 
Pod资源使用率排行 - 按CPU使用率排序  | 查看资源利用率低的Pod应用副本,供您查看闲置应用。  | 
Pod资源闲置排行  | 
  | 
CS Cost Node Pool 节点池维度成本分析
节点池大盘提供了集群资源维度的成本洞察,能够为您提供节点池资源使用分析和付费策略的选择。
节点池侧重资源的维度,站在不同节点池的视角进行资源成本的规划与治理。例如GPU节点池这类资源可能分属多个部门,难以通过命名空间维度分析成本,而通过节点池可以直接从资源维度设置策略,进行成本优化。
筛选维度
参数选项  | 描述  | 
实际/原价账单  | 集群成本统计指标选项,包含优惠后实际账单成本和原价账单成本统计: 
 关于应付金额和官网价的详细介绍,请参见明细账单。  | 
节点池ID(NodePoolID)  | 选择分析的集群的节点池,默认为All,即所有节点池。  | 
时间范围  | 选择大盘时间范围,默认为最近7天。您可以设置该项查看不同时间范围的成本、资源趋势。  | 
费用概览
指标  | 描述  | 
  | 
  | 
集群每核时的单位价格  | 一段时间内节点池中节点每核时的单价费用变化的趋势。  | 
  | 节点池中节点的花费成本变化趋势,以及该节点池节点占总集群费用比例的变化趋势。  | 
付费策略及花费预估
指标  | 描述  | 
  | 一段时间内不同付费售卖策略节点实例数的占比分析和变化趋势,以及节点池节点不同售卖策略节点的费用占比分析和变化趋势。支持如下付费售卖策略: 
  | 
  | 更换节点付费策略成本节省预测分析,分析当前集群该节点池中所有节点全部更换为不同付费售卖策略后,可以节省或会带来的超额成本,帮助您优化资源组合和付费策略。  | 
节点的每小时成本/付费策略统计 - 原价账单成本  | 节点池中所有节点费用与付费策略的统计。  | 
CS Cost Application 应用维度成本分析
应用大盘以Label通配符匹配的方式,能够筛选出您关心的应用进行成本、资源的统计,侧重于场景化的成本优化,典型场景包括大数据业务、AI业务、弹性业务。
通过Label通配符匹配的方式,您不仅可以监控单应用的成本和资源用量,还可以对多个有相关性的应用进行监控。例如大数据工作流的场景,可以为流程中的所有应用加上一致性的Label,从而对整个工作流业务进行成本分析。
筛选维度
参数选项  | 描述  | 
命名空间(Namespace)  | 集群成本统计指标选项,包含优惠后实际账单成本和原价账单成本统计: 
 关于应付金额和官网价的详细介绍,请参见明细账单。  | 
命名空间(Namespace)  | 选择分析的集群的命名空间,默认为All,即所有命名空间。  | 
工作负载类型  | 集群资源对象类型。  | 
工作负载名称  | 根据资源对象类型,选择资源负载名称。  | 
标签对筛选(LabelSelector)  | 输入应用Pod的标签。支持使用 如果标签key中包含 需要转换为:
  | 
成本分摊模型  | 成本分摊模型选项,包含单资源模型和权重混合资源模型,具体分为如下几类。 
 关于成本分摊模型选择的详细介绍,请参见成本估算策略介绍。  | 
时间范围  | 选择大盘时间范围,默认为最近7天。您可以设置该项查看不同时间范围的成本、资源趋势。  | 
费用概览
指标  | 描述  | 
应用花费  | 当前所选应用在大盘所查询时间范围的花费成本,按原价账单成本统计。  | 
应用当前副本数  | 统计分析该应用峰谷值的Pod副本数。  | 
应用占整个集群/命名空间资源利用率  | 该应用资源在集群、命名空间中的资源占比。  | 
所在节点每小时成本  | 应用所在的每个节点每核时的单位价格。  | 
应用运行时间 / 总消耗的核时资源数  | 按应用的运行时间统计。应用总消耗的核时资源数。  | 
计算资源利用率  | CPU和内存的利用率(Usage / Request)。  | 
Pod维度业务成本分析  | 查看应用中包含的各Pod的资源情况和实时估算成本。  | 
应用预估花费趋势  | 一段时间内应用每小时费用成本、单位核时价格的变化的趋势。  | 
应用Pod规模趋势  | 应用的Pod规模副本数趋势统计。  | 
  | CPU、内存、GPU的请求和使用趋势图含义: 
 应用已分配且未使用资源=蓝色柱状图-黄色柱状图 集群剩余资源可分配量=Y轴-蓝色柱状图 分析浪费流程: 
  | 
付费策略及Pod用量
指标  | 描述  | 
  | 分析当前应用中所有节点全部更换为不同付费售卖策略后,可节省或会带来的超额成本,帮助您优化资源组合和付费策略。  | 
  | 包含应用所在节点付费策略统计,应用所在节点的每小时成本和付费策略统计,用于分析应用中所在节点的不同付费策略分布与趋势。  | 
  | 通过成本费用分析部门成本消耗情况,帮助您识别闲置率高的应用,指标说明如下: 
  | 
常见问题
为什么开启成本可视化后没有数据显示?
检查集群是否配置NAT网关。由于部分地域不支持通过内网endpoint查询账单,请确认您的集群具备访问公网能力。
花费日环比和明日预测花费需要连续采集两天的费用数据后才显示。
为什么命名空间的费用相加与实际的费用账单不相等?
命名空间的费用是通过成本估算来进行核算的,并非直接通过账单分析得出。因此,在做费用估算的时候,是通过目录价进行计算的,当集群的花费包含代金券、折扣、节约计划等抵扣策略的时候,会出现一定的数据偏差。但是,可以通过命名空间的比例乘以集群的总费用进行费用的分账。
为什么账单中展示的云产品没有包括集群使用的所有云产品?
成本分析只统计本集群独享的云产品,对于多集群共享的云产品,不在成本分析的账单统计范围内。
成本洞察功能依赖费用与成本控制台的费用标签功能,即依赖于云产品标签中的特定标识(key:value=ack.aliyun.com:{{集群ClusterId}})来实现集群成本的追踪与统计。如果您在费用标签页面关闭了此标签,那么集群级别的成本统计将会失效。为了解决成本统计失效问题,您需要重新在费用标签管理页面启用ack.aliyun.com和ack.alibabacloud.com/nodepool-id标签。
为什么本月/本周累计花费比实际低
集群从成本洞察组件成功开通后才开始统计产生的费用,不会统计组件开通前的数据。