云原生监控支持对云原生相关资源的监控,比如 Kubernetes 集群、命名空间(namespace) 、容器组(Pod)、容器(Container)、主机(Server)等,并支持从 多集群 > 集群 > 命名空间 >主机 > 容器组 > 容器 逐级下钻的能力,每个层级都有对该云原生资源对象的最佳监控大盘,帮助运维人员能够从全局监控集群资源的使用情况,以及细察容器的运行状态,真正实现对云原生的运维。

云原生监控查询
在云原生监控页面进行查询时,可以进行下述操作:

选择展示视角:
多集群(mutil_cluster)概览
命名空间(namespace)概览
主机(Server)概览
设置查询条件:
输入或重置过滤的正则表达式。
选择对比曲线和时间跨度。
回放:回放指定时间段的数据。
自动更新:定时刷新页面数据。
云原生监控视角
云原生监控内容的可视化展示分为下述三个视角:
多集群(mutil_cluster)概览
多集群(mutil_cluster)概览示意图


从多集群视角触发,主要展示的内容包括:
各集群资源的统计信息:
集群名
主机数
Pod 数
Container 数
CPU 总核数
CPU 使用率
内存总量
内存使用率
各集群主机变化趋势
各集群容器组(running)变化趋势
各集群容器(running)变化趋势
各集群主机分布
各集群容器组(running) 分布
各集群容器(running) 分布
Docker Kubelet 总览信息:
集群名
docker_operations:docker 操作次数。
docker_operations_errors:docker 操作中的出错次数。
runtime_operations:不同操作类型累计的 runtime 操作次数。
runtime_operations_errors: 不同操作类型累计的 runtime 操作中的出错次数。
命名空间(namespace)概览
命名空间(namespace)概览示意图

从命名空间(namespace)视角所展示的命名空间资源的统计信息如下:
命名空间名称
集群名
CPU 限额
CPU 使用率
内存限额
内存使用率
主机(Server)概览
主机(Server)概览示意图
从主机(Server)视角所展示的物理机资源信息汇总如下:
指标名称 | 指标组成 | 说明 | 备注 |
CPU | cpu_cores | 一个主机(Server)的 CPU 总核数。 | 数据来源于 |
cpu_sys | 内核态时间的比例,单位为 %。一般指的是应用调用 syscall 后陷入内核态的时间,比如写磁盘 IO、网络通信、IO 操作等。当 cpu_sys 较高时,有可能存在一些内核问题或者硬件问题。 | ||
cpu_user | 用户态时间的比例,单位为 %。一般用户态都是业务处理逻辑(不包括写磁盘、进行网络通信等),比如做一个复杂的运算。cpu_user 比率高大多数是因为业务繁忙引起的。 | ||
cpu_wait | IO 等待时间,单位为 %。一般写磁盘操作需要等待数据刷入磁盘中,此时进程会进入等待状态。cpu_wait 的比率可以反映 IO 繁忙程度,值越高说明性能受读写磁盘的影响更大。 | ||
cpu_steal | 被偷走的 CPU 时间的占比,单位为 %。在物理主机侧该数据为 0,在 VM 内,为其它系统运行的时间占比(包括共享核的其它 VM 以及宿主机)。一般情况下,值越高,争抢越激烈。 | ||
cpu_util | CPU 整体使用率,单位为 %。由 | ||
cpu_hirq | 处理硬件中断时间的比率,单位为 %。很少出现比率较高的问题,如果值特别高,一般可以推断是系统问题或者硬件问题。 | ||
cpu_sirq | 软中断处理的时间比率,单位为 %。内核软中断高一般都是网络 IO 繁忙引起的。如果该值很高,一般说明网络流量过大。 | ||
cpu_nice | 优先级小于 120 的进程用户后台运行的时间比率,可以理解为 user 的一种。 | ||
cpu_guest | 主机内 VM 运行的时间占比,单位为 %。体现主机侧被其上运行的虚拟机抢占的 CPU 资源的占比。 | ||
内存 | mem_total | 总内存量。 | 数据来源于 |
mem_used | total-buff-cache-free 的内存量。包括用户使用的和系统使用的总内存量。 | ||
mem_util | 内存使用率。 | ||
mem_rutil | 真实内存使用率。 | ||
负载 | 1 分钟负载(load1) | 1 分钟内 load 指标,load 能反应系统负载,当系统负载高的时候 load 就会高。load 跟 running 的 task 数目以及 d 状态的 task 数有关系。 说明 d 状态是指不可中断的 sleep 状态,比如 iowait。 | 数据来源于 |
5 分钟负载(load5) | 5 分钟内 load 指标,评估的时间更长。 | ||
15 分钟负载(load15) | 15 分钟内的 load 指标。 | ||
流量 | traffic_bytin | 物理主机物理网卡 rx 方向的流量大小,单位为 byte/s。一般 10G 的网卡,超过 960 M 就到了物理网卡的极限。 | 数据来源于 |
traffic_bytout | 物理主机物理网卡 tx 方向的流量大小,单位为 byte/s。 | ||
traffic_pktin | 物理主机物理网卡 rx 方向的 pps,单位为 packet/s。 | 数据来源于 | |
traffic_pktout | 物理主机物理网卡 tx 方向的 pps,单位为 packet/s。 | ||
TCP | tcp_active | active open/s,每秒主动发起连接的次数。 | 数据来源于 |
tcp_pasive | passive open/s,每秒被动生成连接的次数。 | ||
tcp_AtmpFail | AttemptFails,每秒发起连接失败的次数,比如半连接队列满导致 syn 包被丢弃等等。 | ||
tcp_CurrEstab | Current Established connection,当前 TCP 连接数。 |
云原生监控集群
选择云原生监控任一视角展示监控详情时,单击集群名,会跳转到集群监控页面,在该页面,可以从下述五个角度来查看集群信息:
集群总览
可视化展示集群的总览信息,示例如下:



相关操作
单击右侧视图图标(见下表),即可在不同的数据呈现形式之间切换。
视图图标
说明
饼图图表类型。
可以在 大盘-视图类型 中选择并配置。支持在展示时切换视图方式。
趋势图表格图表类型。
可以在 大盘-视图类型 中选择并配置。支持在展示时切换视图方式。
折线图图表类型。
支持趋势查看、对比查看。
表格图表类型。
以表格形式对最高值、最低值、平均值、点的个数进行统计。支持复制表格内数据。
单击界面中的蓝色字体可下钻到具体详情页面,查看更详细的数据。
例如,单击 IP 名称即可进入 主机监控 > 系统指标 页。在该页面上,可查看各系统指标使用情况,如负载、IO 使用率等。
命名空间监控
可视化展示命名空间的监控信息,示例如下:
相关操作
单击右侧视图图标
,即可将数据展示形式由表格切换为饼图。
单击界面中的蓝色字体可下钻到具体详情页面,查看更详细的数据。
例如,单击命名空间名称即可进入 命名空间监控 > 命名空间指标 页。在该页面上,可查看命名空间 CPU 使用率、内存使用量、磁盘使用量以及容器组资源使用情况。
主机监控
可视化展示主机监控信息,示例如下:

相关操作
单击右侧视图图标
,即可将数据展示形式由表格切换为饼图。
单击界面中的蓝色字体可下钻到具体详情页面,查看更详细的数据。
例如,单击 node 名称即可进入 主机监控 > 系统指标 页。在该页面上,可查看各系统指标使用情况,如负载、IO 使用率等。
容器组监控
可视化展示容器组的监控信息,示例如下:
相关操作
单击右侧视图图标
,即可将数据展示形式由表格切换为饼图。
单击界面中的蓝色字体可下钻到具体详情页面,查看更详细的数据。
例如,单击容器组名称即可进入 容器组监控 > 容器组指标 页。在该页面上,可查看 CPU、内存、磁盘及带宽使用情况。
单击命名空间名称即可进入 命名空间监控 > 命名空间指标 页。在该页面上,可查看命名空间 CPU 使用率、内存使用量、磁盘使用量以及容器组资源使用情况。
容器监控
可视化展示容器的监控信息,示例如下:

相关操作
单击右侧视图图标
,即可将数据展示形式由表格切换为饼图。
单击界面中的蓝色字体可下钻到具体详情页面,查看更详细的数据。
在文档使用中是否遇到以下问题
更多建议
匿名提交