主机监控的监控项包括插件采集监控项和ECS基础监控项。插件采集频率为每15秒一次,ECS基础监控数据采集频率为每1分钟一次。

说明 当您查看ECS基础监控和操作系统监控数据(来源于插件采集数据)时,可能会存在数据不一致的情况,主要原因如下:
  • 统计频率不同。监控图表中提供的数据均为统计周期内的平均值,基础监控统计频率是1分钟,操作系统统计频率是15秒。当监控数据波动比较大时,会出现基础监控数据比操作系统监控数据小的情况。
  • 数据统计视角不同。基础监控的网络流量统计计费维度数据,已除去ECS和SLB之间不计费的网络流量。操作系统监控的网络流量,记录每张网卡实际的网络流量。会出现操作系统监控的网络数据大于基础监控网络数据的情况,即出现插件采集的数据比实际购买的带宽或流量大的情况。

插件采集指标

  • CPU相关监控项

    可参考Linux的top命令来理解各项指标含义。

    监控项名称 监控项含义 单位 说明
    Host.cpu.idle 当前空闲CPU百分比。 % 当前CPU处于空闲状态的百分比。
    Host.cpu.system 当前内核空间占用CPU百分比。 % 指系统上下文切换的消耗。如果该监控项数值比较高,则说明服务器开了太多的进程或者线程。
    Host.cpu.user 当前用户空间占用CPU百分比。 % 用户进程对CPU的消耗。
    Host.cpu.iowait 当前等待IO操作的CPU百分比。 % 该项数值比较高说明有很频繁的IO操作。
    Host.cpu.other 其他占用CPU百分比。 % 其他消耗,计算方式为(Nice+SoftIrq+Irq+Stolen)的消耗。
    Host.cpu.totalUsed 当前消耗的总CPU百分比。 % 以上各项CPU消耗的总和,通常用于报警。
  • 内存相关监控项

    Linux系统可参考free命令来理解各项指标含义,数据源:/proc/meminfo。Windows系统的数据主要源于函数GlobalMemoryStatusExAPI。

    监控项名称 监控项含义 单位 说明
    Host.mem.total 内存总量。 Byte

    服务器的内存总量。

    /proc/meminfo的MemTotal。

    Host.mem.free 剩余内存量。 Byte

    系统可用内存。

    /proc/meminfo的MemFree。

    Host.mem.used 已用内存量。 Byte

    系统已用内存。

    计算方法:total–free。

    Host.mem.actualused 用户实际使用的内存。 Byte 计算方法:
    • /proc/meminfo中有MemAvailable时:total-MemAvailable
    • /proc/meminfo中无MemAvailable时:used–buffers-cached

    Centos 7.2与Ubuntu 16.04以上(包含)的系统使用了新的Linux内核,在内存的估算上更准确,MemAvailable这一列的具体含义,请参见commit

    Host.mem.freeutilization 剩余内存百分比。 % 计算方法:
    • /proc/meminfo中有MemAvailable时:MemAvailable/total×100%。
    • /proc/meminfo中无MemAvailable时:(total–actualused)/total ×100%。
    Host.mem.usedutilization 内存使用率。 % 计算方法:
    • /proc/meminfo中有MemAvailable时:(total-MemAvailable)/ total×100%。
    • /proc/meminfo中无MemAvailable时:(total–free-buffers-cached)/total×100%。
  • 系统平均负载监控项

    可参考Linux的top命令来理解各项指标含义。监控项数值越高代表系统越繁忙。

    监控项名称 监控项含义 单位
    Host.load1 过去1分钟的系统平均负载,Windows操作系统无此指标。
    Host.load5 过去5分钟的系统平均负载,Windows操作系统无此指标。
    Host.load15 过去15分钟的系统平均负载,Windows操作系统无此指标。
  • 磁盘相关监控项
    • 磁盘使用率与inode使用率可参考Linux的df命令。
    • 磁盘读写指标可参考Linux的iostat命令。
    监控项名称 监控项含义 单位
    Host.diskusage.used 磁盘的已用存储空间。 Byte
    Host.disk.utilization 磁盘使用率。 %
    Host.diskusage.free 普通用户和超级用户的磁盘剩余存储空间。 Byte
    Host.diskusage.avail 普通用户的磁盘剩余存储空间。 Byte
    Host.diskussage.total 磁盘存储总量。 Byte
    Host.disk.readbytes 磁盘每秒读取的字节数。 Byte/s
    Host.disk.writebytes 磁盘每秒写入的字节数。 Byte/s
    Host.disk.readiops 磁盘每秒的读请求数量。 次/秒
    Host.disk.writeiops 磁盘每秒的写请求数量。 次/秒
  • 文件系统监控项
    监控项名称 监控项含义 单位 说明
    Host.fs.inode inode使用率。 % Windows操作系统没有此指标。UNIX或Linux系统内部不使用文件名,而使用inode号码来识别文件。当磁盘还未存满,但inode已经分配完时,会出现无法在磁盘新建文件的情况,因此需要监控inode使用率。inode数量代表文件系统文件数量,大量小文件会导致inode使用率过高。
  • 网络相关监控项
    TCP连接数的采集,可参考Linux的ss命令。TCP连接数会默认采集TCP_TOTAL(总连接数)、ESTABLISHED(正常连接状态),NON_ESTABLISHED(非连接的状态连接数,ESTABLISHED以外的所有状态),如果您需要获取各个状态连接数的数量,操作方法如下:
    • Linux
      1. 以root用户登录云监控插件所在服务器。
      2. 将配置文件cloudmonitor/config/conf.properties中的netstat.tcp.disable修改为false,开启TCP连接数采集。
      3. 重启云监控插件。

        操作方法请参见如何重启云监控插件

    • Windows
      1. 以Administrators用户登录云监控插件所在服务器。
      2. 将配置文件C:\Program Files\Alibaba\cloudmonitor\config中的netstat.tcp.disable改为false,开启TCP连接数采集。
      3. 重启云监控插件。

        操作方法请参见如何重启云监控插件

    下表为网络相关指标,可参考Linux的iftop命令。
    监控项名称 监控项含义 单位
    Host.netin.rate 网卡每秒接收的比特数,即网卡的上行带宽。 bit/s
    Host.netout.rate 网卡每秒发送的比特数,即网卡的下行带宽。 bit/s
    Host.netin.packages 网卡每秒接收的数据包数。 个/秒
    Host.netout.packages 网卡每秒发送的数据包数。 个/秒
    Host.netin.errorpackage 设备驱动器检测到的接收错误包的数量。 个/秒
    Host.netout.errorpackages 设备驱动器检测到的发送错误包的数量。 个/秒
    Host.tcpconnection 各种状态下的TCP连接数包括:LISTEN、SYN_SENT、ESTABLISHED、SYN_RECV、FIN_WAIT1、CLOSE_WAIT、FIN_WAIT2、LAST_ACK、TIME_WAIT、CLOSING和CLOSED。
  • 进程相关监控项
    • 进程的CPU使用率、内存使用率可参考Linux的top命令,CPU使用率为多核使用情况。
    • Host.process.openfile可参考Linux的lsof命令。
    • Host.process.number可参考Linux的ps aux |grep ‘关键字’命令。
    监控项名称 监控项含义 单位 备注
    Host.process.cpu 某个进程消耗的CPU百分比。 % 不支持设置报警。
    Host.process.memory 某个进程消耗的内存百分比。 % 不支持设置报警。
    Host.process.openfile 当前进程打开文件数。 不支持设置报警。
    Host.process.number 指定关键字的进程数。 不支持设置报警。

ECS自带监控项

如果您的主机是ECS服务器,则以下监控项无需安装插件。指标采集粒度为1分钟。

监控项名称 监控项含义 单位
ECS.CPUUtilization CPU使用率。 %
ECS.InternetInRate 公网入流量平均速率。 bit/s
ECS.IntranetInRate 私网入流量平均速率。 bit/s
ECS.InternetOutRate 公网出流量平均速率。 bit/s
ECS.IntranetOutRate 私网出流量平均速率。 bit/s
ECS.SystemDiskReadbps 系统磁盘每秒读取字节总数。 Byte/s
ECS.SystemDiskWritebps 系统磁盘每秒写入字节总数。 Byte/s
ECS.SystemDiskReadOps 系统磁盘每秒读取次数。 个/秒
ECS.SystemDiskWriteOps 系统磁盘每秒写入次数。 个/秒
ECS.InternetIn 公网流入流量。 Byte
ECS.InternetOut 公网流出流量。 Byte
ECS.IntranetIn 内网流入流量。 Byte
ECS.IntranetOut 内网流出流量。 Byte