全部产品

云原生监控

云原生监控支持对云原生相关资源的监控,比如 Kubernetes 集群、命名空间(namespace) 、容器组(Pod)、容器(Container)、主机(Server)等,并支持从 多集群 > 集群 > 命名空间 >主机 > 容器组 > 容器 逐级下钻的能力,每个层级都有对该云原生资源对象的最佳监控大盘,帮助运维人员能够从全局监控集群资源的使用情况,以及细察容器的运行状态,真正实现对云原生的运维。

1

云原生监控查询

在云原生监控页面进行查询时,可以进行下述操作:

1
  • 选择展示视角:

    • 多集群(mutil_cluster)概览

    • 命名空间(namespace)概览

    • 主机(Server)概览

  • 设置查询条件:

    • 输入或重置过滤的正则表达式。

    • 选择对比曲线和时间跨度。

    • 回放:回放指定时间段的数据。

    • 自动更新:定时刷新页面数据。

云原生监控视角

云原生监控内容的可视化展示分为下述三个视角:

多集群(mutil_cluster)概览

多集群(mutil_cluster)概览示意图

1多集群概览-2.png

从多集群视角触发,主要展示的内容包括:

  • 各集群资源的统计信息:

    • 集群名

    • 主机数

    • Pod 数

    • Container 数

    • CPU 总核数

    • CPU 使用率

    • 内存总量

    • 内存使用率

  • 各集群主机变化趋势

  • 各集群容器组(running)变化趋势

  • 各集群容器(running)变化趋势

  • 各集群主机分布

  • 各集群容器组(running) 分布

  • 各集群容器(running) 分布

  • Docker Kubelet 总览信息:

    • 集群名

    • docker_operations:docker 操作次数。

    • docker_operations_errors:docker 操作中的出错次数。

    • runtime_operations:不同操作类型累计的 runtime 操作次数。

    • runtime_operations_errors: 不同操作类型累计的 runtime 操作中的出错次数。

命名空间(namespace)概览

命名空间(namespace)概览示意图

1

从命名空间(namespace)视角所展示的命名空间资源的统计信息如下:

  • 命名空间名称

  • 集群名

  • CPU 限额

  • CPU 使用率

  • 内存限额

  • 内存使用率

主机(Server)概览

主机(Server)概览示意图

1

从主机(Server)视角所展示的物理机资源信息汇总如下:

指标名称

指标组成

说明

备注

CPU

cpu_cores

一个主机(Server)的 CPU 总核数。

数据来源于 /proc/stat,用于监控宿主机整体 CPU 的使用特征和用量。

cpu_sys

内核态时间的比例,单位为 %。一般指的是应用调用 syscall 后陷入内核态的时间,比如写磁盘 IO、网络通信、IO 操作等。当 cpu_sys 较高时,有可能存在一些内核问题或者硬件问题。

cpu_user

用户态时间的比例,单位为 %。一般用户态都是业务处理逻辑(不包括写磁盘、进行网络通信等),比如做一个复杂的运算。cpu_user 比率高大多数是因为业务繁忙引起的。

cpu_wait

IO 等待时间,单位为 %。一般写磁盘操作需要等待数据刷入磁盘中,此时进程会进入等待状态。cpu_wait 的比率可以反映 IO 繁忙程度,值越高说明性能受读写磁盘的影响更大。

cpu_steal

被偷走的 CPU 时间的占比,单位为 %。在物理主机侧该数据为 0,在 VM 内,为其它系统运行的时间占比(包括共享核的其它 VM 以及宿主机)。一般情况下,值越高,争抢越激烈。

cpu_util

CPU 整体使用率,单位为 %。由 user+sys+nice+guset+hirq+sirq 组成,反映当前系统 CPU 的利用率。比率越高,越能说明当前 CPU 越繁忙。

cpu_hirq

处理硬件中断时间的比率,单位为 %。很少出现比率较高的问题,如果值特别高,一般可以推断是系统问题或者硬件问题。

cpu_sirq

软中断处理的时间比率,单位为 %。内核软中断高一般都是网络 IO 繁忙引起的。如果该值很高,一般说明网络流量过大。

cpu_nice

优先级小于 120 的进程用户后台运行的时间比率,可以理解为 user 的一种。

cpu_guest

主机内 VM 运行的时间占比,单位为 %。体现主机侧被其上运行的虚拟机抢占的 CPU 资源的占比。

内存

mem_total

总内存量。

数据来源于 /proc/meminfo,主要监控内存的使用情况。

mem_used

total-buff-cache-free 的内存量。包括用户使用的和系统使用的总内存量。

mem_util

内存使用率。mem_util=(total-free)*100/total。本系统将 Buffer 和 Cache 都归为空闲的,是传统的算法。

mem_rutil

真实内存使用率。rutil=(total-avail)*100/total。这里的使用包括了共享内存和内存文件系统的映射,提供了更为精确的 util。

负载

1 分钟负载(load1)

1 分钟内 load 指标,load 能反应系统负载,当系统负载高的时候 load 就会高。load 跟 running 的 task 数目以及 d 状态的 task 数有关系。

说明

d 状态是指不可中断的 sleep 状态,比如 iowait。

数据来源于 /proc/loadavgcpuacct.proc_stat(_v2),主要关注系统整体的负荷。dtask 增高 load也会增加,因此 load 异常升高 很可能是系统出现异常的表现。 load1 > load5 > load15:系统负载呈现增加趋势,load1 < load5 < load15:系统负载呈现减小趋势。

5 分钟负载(load5)

5 分钟内 load 指标,评估的时间更长。

15 分钟负载(load15)

15 分钟内的 load 指标。

流量

traffic_bytin

物理主机物理网卡 rx 方向的流量大小,单位为 byte/s。一般 10G 的网卡,超过 960 M 就到了物理网卡的极限。

数据来源于 /proc/net/dev, 主名字空间设备的网络流量。

traffic_bytout

物理主机物理网卡 tx 方向的流量大小,单位为 byte/s。

traffic_pktin

物理主机物理网卡 rx 方向的 pps,单位为 packet/s。

数据来源于 /proc/net/snmp,主名字空间设备的网络流量。

traffic_pktout

物理主机物理网卡 tx 方向的 pps,单位为 packet/s。

TCP

tcp_active

active open/s,每秒主动发起连接的次数。

数据来源于 /proc/net/snmp,主要采集跟 TCP 相关的数据,从而来判断网络问题。

tcp_pasive

passive open/s,每秒被动生成连接的次数。

tcp_AtmpFail

AttemptFails,每秒发起连接失败的次数,比如半连接队列满导致 syn 包被丢弃等等。

tcp_CurrEstab

Current Established connection,当前 TCP 连接数。

云原生监控集群

选择云原生监控任一视角展示监控详情时,单击集群名,会跳转到集群监控页面,在该页面,可以从下述五个角度来查看集群信息:

集群总览

可视化展示集群的总览信息,示例如下:

11集群总览-3.png

相关操作

  • 单击右侧视图图标(见下表),即可在不同的数据呈现形式之间切换。

    视图图标

    说明

    1

    饼图图表类型。

    可以在 大盘-视图类型 中选择并配置。支持在展示时切换视图方式。

    1

    趋势图表格图表类型。

    可以在 大盘-视图类型 中选择并配置。支持在展示时切换视图方式。

    2

    折线图图表类型。

    支持趋势查看、对比查看。

    3

    表格图表类型。

    以表格形式对最高值、最低值、平均值、点的个数进行统计。支持复制表格内数据。

  • 单击界面中的蓝色字体可下钻到具体详情页面,查看更详细的数据。

    例如,单击 IP 名称即可进入 主机监控 > 系统指标 页。在该页面上,可查看各系统指标使用情况,如负载、IO 使用率等。

命名空间监控

可视化展示命名空间的监控信息,示例如下:

1

相关操作

  • 单击右侧视图图标 1,即可将数据展示形式由表格切换为饼图。

  • 单击界面中的蓝色字体可下钻到具体详情页面,查看更详细的数据。

    例如,单击命名空间名称即可进入 命名空间监控 > 命名空间指标 页。在该页面上,可查看命名空间 CPU 使用率、内存使用量、磁盘使用量以及容器组资源使用情况。

主机监控

可视化展示主机监控信息,示例如下:

1

相关操作

  • 单击右侧视图图标 1,即可将数据展示形式由表格切换为饼图。

  • 单击界面中的蓝色字体可下钻到具体详情页面,查看更详细的数据。

    例如,单击 node 名称即可进入 主机监控 > 系统指标 页。在该页面上,可查看各系统指标使用情况,如负载、IO 使用率等。

容器组监控

可视化展示容器组的监控信息,示例如下:

1

相关操作

  • 单击右侧视图图标 1,即可将数据展示形式由表格切换为饼图。

  • 单击界面中的蓝色字体可下钻到具体详情页面,查看更详细的数据。

    例如,单击容器组名称即可进入 容器组监控 > 容器组指标 页。在该页面上,可查看 CPU、内存、磁盘及带宽使用情况。

    单击命名空间名称即可进入 命名空间监控 > 命名空间指标 页。在该页面上,可查看命名空间 CPU 使用率、内存使用量、磁盘使用量以及容器组资源使用情况。

容器监控

可视化展示容器的监控信息,示例如下:

1

相关操作

  • 单击右侧视图图标 1,即可将数据展示形式由表格切换为饼图。

  • 单击界面中的蓝色字体可下钻到具体详情页面,查看更详细的数据。