版本说明

本文为您介绍云监控插件的版本发布信息。

3.5.12

分类

说明

发布时间

2024-10-09

新特性

  • 新增region支持:

    • 杭州专属云KS01。

    • 成都蚂蚁云(cn-chengdu-ant)。

  • 删除region: 孟买(ap-south-1)。

  • 任务调度由系统时钟改为单调时钟,避免系统时间调整造成计时的混乱。

  • 命令行增加:tool curl,对目标地址进行探测,并打印出交互过程。方便问题『就地』定位。

    /usr/local/cloudmonitor/bin/argusagent tool curl --help
    
    Usage: argusagent tool curl [options] url
    Allowed options:
      -h [ --help ]               Print this help message
      -X [ --request ] arg (=GET) Specifies a custom request method to use.
      --url arg                   Target url.
      -d [ --data ] arg           Only for POST, http bod.y
      -H [ --header ] arg         Extra header to use.
      -m [ --max-time ] arg (=30) Maximum time in seconds that you allow the whole operation to take.
      -x [ --proxy ] arg          Use the specified proxy, format: [protocol://]host[:port].
      --proxy-user arg            Specify the user name to use for proxy authentication.
      --proxy-pass arg            Specify the password to use for proxy authentication.
      --proxy-http2               Negotiate HTTP version 2 with an HTTPS proxy. The proxy might still only offer HTTP/1 and
                                  then curl sticks to using that version. This has no effect for any other kinds of
                                  proxies.
      --json arg                  Json object config, this will ignore all other options.
      --json-file arg             Json object config file, this will ignore all other options.
      --task-id arg               Detect once of http task with taskId
  • 命令行增加新参数(-e GetTopTasks),支持运行时动态查看Top20的任务的时间消耗。

    Linux

    # CoreOS下的路径为/opt/cloudmonitor/bin/argusagent
    /usr/local/cloudmonitor/bin/argusagent -e GetTopTasks

    Windows

    "C:\Program Files\Alibaba\cloudmonitor\bin\argusagent.exe -e GetTopTasks
  • 心跳、上报指标时,日志中增加代理信息,避免用户认为agent使用的公网。

  • 进程监控支持打标功能。

  • 自监控指标增加一项:连续2分钟无基础指标采集时,则自动重启。

  • GPU: 支持昇腾(Ascend)、海光(Hygon)。(Only For Linux) 。

  • Agent安装脚本升级到1.13。

    • 对bash的依赖下探到sh,进一步提升了脚本的适应能力,支持更大范围的安装运行(如Android)。

    • 手动安装时支持用户自定义代理。以前只支持通过自定义代理下载安装脚本。

    • 下载后自检,当安装包合法时,再卸载旧版本。避免wget包下载成功,实际下载失败(空包)的情况。

    • 优化安装过程中的日志,使日志更具可读性、可定位性。

    • Windows下支持基于本地安装包(-packageFile)的安装(跳过下载安装包的过程)。

    • 修复非阿里云安装时,使用代理时的一处bug。该bug表现为下载安装包成功后,会再使用『非代理』重新下载一遍。

    • 支持无影云手机(仅面向无影产品,非面向用户)。

修复问题

  • 安装时未以服务的方式呼起argusagent service。

  • 可用性监控不支持Multi Headers。

  • 修复Linux下『hostname -i』返回多个IP的问题。

  • Telnet通过API创建时,兼容支持host和uri混用问题。

  • 修复非ECS模式下,位于bin目录下的accesskey.properties无法被识别的问题。

  • Linux下当磁盘没有序列号时会不断重复调用udevadm。

  • 修复使用https2做代理时不生效的问题。

  • ping任务在丢包率过大时,任务调度不均。三定时器算法的时序假设不合理所致,已重构为事件(收到回包+超时双事件)触发。

  • 可用性监控更新任务时,旧任务存在偶发的无法被清除的现象。

  • 解决可用性监控任务更新时偶发的SIGSEGV的问题。

  • Prometheus解析时的问题:过度trim,会把label中的value部分trim掉前的空白符。

  • 修复Windows下Perf数据异常或缺失时,获取内存指标失败。

  • 修复一处Windows下内存泄漏的bug。 CommandLineToArgvW返回的值使用GlobalFree进行内存释放,应使用LocalFree。

3.5.11

分类

说明

发布时间

2024-03-25

新特性

  • Windows正式支持x64。

  • 支持IPv6。

  • 支持HTTP2。

  • 支持macOS和FreeBSD(基于sigar库)。

  • 代理扩展为支持七种代理协议:HTTP、HTTPS、HTTPS/2、Socks4、Socks4A、Socks5和Socks5H。

  • 新增对GPU以下内容的支持:

    • 支持C:\Windows\System32\nvidia-smi.exe

    • 支持在插件运行期间安装GPU,即允许GPU后于插件安装。

    • 支持基于动态库(libnvml)的GPU采集,使数据采集更安全、更快速。

      说明

      需手动开启动态库(即nvidia.nvml.enabled=true),解决基于命令方式在某些系统下卡死的隐患。

  • 可用性探测的生效时间支持cron表达式。

  • Prometheus采集支持通过HTTP Header进行鉴权。

  • 新增对如下地域的支持:

    • cn-wuhan-lr:武汉本地域。

    • cn-qingdao-acdr-ut-1:青岛海尔专属云。

  • 移除以下4个监控指标:

    • system.udp

    • system.task:系统进程数或线程数。

    • memory.swap:仅Linux的swap分区。

    • system.cpuCore:CPU各核指标。

修复问题

  • 解决Windows下进程监控Top5和进程内存超4GB时,只上报4GB监控数据的问题。

  • 解决域名解析卡死的问题(某些系统下域名解析超过20秒)。

  • 解决部分Prometheus指标解析失败的问题。

  • 解决日志采集占用大量CPU的问题。

  • 解决可用性监控如果Ping失败,下次不再继续探测的问题。

  • 解决获取主机序列号时,可能含有换行符的问题。

  • 解决Telnet同一任务多次探测,可能导致ArgusAgent崩溃的问题。

  • 解决Socks5支持不规范的问题。

  • 解决Windows下找不到wmic的问题。

  • 解决不支持std::locale(""),导致插件启动失败的问题。

  • 修复了大量内存泄漏隐患。

  • 修复main函数退出时,由localTimeCache失效造成的SIGSEGV问题。

    说明

    正常退出时会产生core dump文件。

性能优化

  • 稳定性优化。系统进程数超过5000个(可配置)时,不再继续监控进程,避免占用多地域的客户资源。

  • 升级安装插件时,先自动下载安装包,然后在安装成功后自动删除安装包。

  • 提升JSON配置文件的兼容性,支持:C风格的注释、允许尾部逗号、允许非标UTF-8编码。

  • 公有云日志采集。解析JSON时,支持非JSON的前后缀。

  • 磁盘采集计时由系统时钟改为硬件时钟,以防系统时钟调整,造成计时错误。

  • 磁盘采集mount_point/dir_name是由dir_name所有挂载磁盘的目录拼接起来的字符串最长不超过2048字节。

    说明

    可通过参数agent.resource.dirName.limit进行调整,缺省为2048字节。如小于1024字节,则按1024字节设置。

3.5.10

分类

说明

发布时间

2023-09-08

新特性

  • moduleTask.json支持禁用功能,避免您通过删除来禁用某个功能。

  • 增加argusagent tool top工具,允许您从打开文件数-by fd、内存-by mem和CPU-by cpu三个维度进行topN-n N的排序并输出。

  • 支持禁用GPU采集。

  • 支持插件运行时动态GPU采集。

  • 支持插件运行时动态改变CPU核数。

  • 支持云助手托管的非阿里云主机。

说明

当插件异常退出时,插件会生成一个minidump。当进程下次启动时,将minidump主动上报到云监控,供后台进行分析和错误修复,以提升插件稳定性。

修复问题

  • 修复特定时区上报数据失败问题。

  • 修复进程Top5打开文件数异常问题。

  • 修复进程ID值超过100万时上报数据存在的精度损失问题。

  • 修复Windows下部分存量用户的主机上安装插件后,无法启动argusagent或缺失指定动态库的问题。

  • 修复Windows下读取配置文件CRLF的问题。

  • 修复采集进程数时,第一次会跳过导致进程数为0的问题。

性能优化

  • 进程监控性能优化,降低插件自杀频率。

  • 提升插件在Windows操作系统下的安装成功率。

  • 资源超限时,收集占用(例如:CPU)Top10的资源,同时枚举所有线程的调用栈,以便于对插件的资源占用进行分析。

3.5.8

分类

说明

发布时间

2022-06-30

新特性

  • 文件下发并存储功能。

  • 新增网络丢包、错误率和僵死进程个数。

  • 新增设备使用率和Swap使用率。

修复问题

  • dir_name拼接长度缩减为512 Byte。

  • 在windows操作系统中,调用system模块冗余调用GetUptime问题。

  • IphlpapiGetTcpTable内存泄漏问题。

  • 监控指标cpu.totalcpuPercent.combined修改为1-cpu.idle问题。

  • ping探测检测数据发送时目标IP地址和接收时源IP地址是否相等问题,同时解决icmp序列号碰撞问题。

  • 在windows操作系统中,argusagent服务路径(注册表中imagePath)有空格导致服务启动失败问题。

3.5.7

分类

说明

发布时间

2022-04-30

新特性

支持TCP指标。

修复问题

  • 磁盘目录拼接过程中,导致的上报数据过大的问题。

  • 国际站代理不轮询的问题。

  • win32更改.py文件名关联的问题。

3.5.5

分类

说明

发布时间

2021-12-30

新特性

支持日志采集。

修复问题

3.5.4

分类

说明

发布时间

2021-12-16

新特性

  • Windows系统的进程采集支持中文进程名。

  • Windows系统支持中文用户名。

修复问题

  • 容器服务内偶现CPU核数采集不准确问题。

  • Windows系统IP地址解析错误问题。

  • 当进程采集线程数时,偶现云监控插件退出问题。

  • 可用性探测中ping未正确生效问题。

  • 可用性探测的调度间隔偶现大于配置的时间间隔问题。

3.5.3

分类

说明

发布时间

2021-09-10

新特性

  • 支持Exporter采集数据。

  • HTTP可用性探测任务支持对HTTPS协议的重定向请求。

  • HTTP可用性探测任务支持更多SSL Cipher。

  • HTTP可用性探测任务默认与curl工具的表现相同,且在header中增加了user_agent等。

修复问题

  • 解决TCP连接数相关指标有IPv6连接的主机上偶发的计算错误问题。

  • 实现磁盘使用率精度由整数位到小数位。

  • 解决进程采集cred指标时,偶现的插件停用问题。

3.5.2

分类

说明

发布时间

2021-06-30

新特性

  • 可用性监控任务可调整监控频率。

  • 可用性监控易用性优化,例如:本地日志更加全面和规范。

  • 增加Uptime指标,用于查看系统从上次启动到当前的运行时间。

修复问题

解决云监控插件Windows版本无动态链接库等问题。

3.4.10

分类

说明

发布时间

2021-03-11

新特性

修复问题

解决云监控中非阿里云主机接入后读取AccessKey路径错误的问题。

3.4.9

分类

说明

发布时间

2021-01-05

新特性

支持Socks5代理。

修复问题

解决非阿里云主机的操作系统Windows Server 2012及以下版本缺少某些动态链接库的问题。

3.4.8

分类

说明

发布时间

2020-11-17

新特性

修复问题

解决可用性监控无法正确解析URL的问题。

3.4.7

分类

说明

发布时间

2020-07-27

新特性

  • 支持指标:磁盘I/O、CPU单核。

  • 资源占用更少:重构云监控插件的实现方式,监控指标的采集对硬件资源的占用更少,对系统的负载影响更小。

  • 引入保护机制:自我保护机制。当系统负载较重或其他原因导致云监控插件的系统资源占用超过限制时,插件会自动退出。

修复问题

解决Go版本的云监控插件自动修改系统时间等问题。

早期版本

云监控插件的早期版本说明,请参见早期版本说明