排查客户端问题

更新时间:
复制为 MD 格式

当云安全中心客户端出现离线、安装或卸载失败、进程CPU占用率过高等问题时,可以使用自动排查工具快速诊断,也可以按照手动排查步骤逐项检查。

背景信息

云安全中心控制台显示客户未安装成功或离线时,该服务器将失去云安全中心的防护,可能存在被入侵的风险。客户端离线异常原因如下:

原因

说明

客户端进程异常

客户端核心进程(AliYunDunAliYunDunUpdate)未正常运行,可能因进程崩溃、被手动终止或系统异常导致。

网络连接异常

服务器与云安全中心服务端之间的网络不通,导致客户端无法上报心跳数据。

DNS解析失败

服务器的DNS服务异常,无法正确解析云安全中心服务端域名。

防火墙或安全组限制

服务器上的防火墙ACL规则或阿里云安全组规则阻断了客户端与云安全中心服务端的通信。

服务器资源不足

服务器CPU或内存长期处于高占用状态(如95%以上),导致客户端进程无法正常工作。

第三方安全软件冲突

服务器上安装的第三方防病毒软件禁止了云安全中心客户端的网络访问。

排查方式

排查方式

适用场景

操作说明

控制台排查

服务器已接入云安全中心。

在控制台使用客户端问题排查功能,自动采集和分析客户端数据。

命令行排查

服务器未接入云安全中心。

在服务器上执行aegis_checker排查工具,自动诊断客户端问题。

手动排查

服务器不支持客户端问题排查aegis_checke排查工具

逐项检查客户端进程、网络连接、系统资源等,定位离线原因。

控制台排查

在云安全中心控制台,适用客户端问题排查功能,自动检测分析客户端存在的问题。

适用范围

  • 支持的服务器的系统版本:

    • Windows Server 2008及以上版本

    • Linux 64位系统(CentOS 5及以下版本不支持)

  • 服务器已接入云安全中心。

操作步骤

  1. 登录云安全中心控制台

  2. 在左侧导航栏,选择资产中心 > 主机资产。在控制台左上角,选择需防护资产所在的区域:中国内地非中国内地

  3. 主机资产页面的服务器页签下的服务器列表中,选中要排查的服务器,单击列表下方的客户端问题排查

  4. 客户端问题排查对话框,选择客户端问题排查的问题类型模式,然后单击开始诊断

    配置项

    说明

    问题类型

    选择客户端存在的问题类型。如果不确认客户端存在的问题,可选择全面检查(未知问题类型时使用)

    模式

    选择客户端问题排查的模式,可选择的模式有:

    • 常规模式:常规模式将采集与客户端相关日志数据上报至云安全中心进行分析,排查需要1分钟左右。

    • 增强模式:增强模式将采集与客户端相关的网络、进程、日志等数据上报云安全中心进行分析,排查需要5分钟左右。

    说明

    客户端问题排查的诊断程序将在该服务器中采集与客户端相关的网络、进程、日志等数据上报云安全中心进行分析。

  5. 提示对话框中,单击确定,展开任务管理面板,查看所有的客户端问题排查任务。

    说明

    也可以在主机资产页面,单击右上角的客户端任务管理展开任务管理面板。

  6. 定位到要查看的客户端排查任务,单击操作列的详情,展开执行日志面板。执行日志面板上会展示每个服务器的客户端问题的排查详情。

    列表信息

    说明

    开始时间/结束时间

    客户端问题排查任务的开始时间和结束时间。

    服务器信息

    客户端排查任务中排查的服务器的信息。

    状态

    客户端排查任务的状态。状态包括:

    • 启动:表示已经下发客户端问题排查命令。

    • 超时:表示下发客户端问题排查命令超过一段时间还没有返回排查结果。

    • 成功:表示客户端问题排查结果已生成。

    问题

    客户端排查任务中排查发现的问题。

    结果

    客户端排查任务中排查出问题的解决方案。

    操作

    客户端排查任务的诊断日志。支持下载诊断日志对客户端问题进行进一步做验证分析。

  7. 结果分析

    • 客户端问题排查发现的问题当中,部分问题会在结果列给出解决方案,请按照给出的解决方案处理即可。

    • 如果在结果列没有给出解决方案,请单击操作列的下载诊断日志,将导出的诊断日志和AliUid给到相关人员进一步做验证分析。

命令行排查

在服务器上执行排查工具命令,自动诊断客户端问题。

适用范围

  • 支持的服务器的系统版本:

    • Windows Server 2008及以上版本

    • Linux 64位系统(CentOS 5及以下版本不支持)

  • 服务器已接入云安全中心。

操作步骤

  1. 登录目标服务器。

    说明
    • Windows系统需要用管理员权限登录。

    • Linux系统需要用root权限登录。

  2. 在服务器上执行以下命令。

    阿里云ECS - Linux

    • 常规模式(排查约1分钟):

      • ECS服务器与云安全中心网络互通时,以root权限执行以下命令:

        wget "http://update2.aegis.aliyun.com/download/aegis_client_self_check/linux64/aegis_checker.bin" && chmod +x aegis_checker.bin && ./aegis_checker.bin
      • ECS服务器与云安全中心网络不通时,需要下载aegis_checker并拷贝到目标服务器后,以root权限执行以下命令:

        chmod +x aegis_checker.bin
         ./aegis_checker.bin
    • 增强模式(排查约5分钟):以root权限执行以下命令:

      wget "http://update2.aegis.aliyun.com/download/aegis_client_self_check/linux64/aegis_checker.bin" && chmod +x aegis_checker.bin && ./aegis_checker.bin -b "ew0KICAgICJ1dWlkIjogIiIsDQogICAgImNtZF9pZHgiOiAiIiwNCiAgICAiaXNzdWUiOiAib3RoZXJfaXNzdWUiLA0KICAgICJtb2RlIjogMywNCiAgICAianNydl9kb21haW4iOiBbXSwNCiAgICAidXBkYXRlX2RvbWFpbiI6IFtdDQp9"

    阿里云ECS - Windows

    常规模式(排查约1分钟):通过以下两种方式之一排查:

    • 下载aegis_checker程序,然后以管理员权限运行。

    • 以管理员权限在cmd窗口中直接执行如下命令:

      powershell -executionpolicy bypass -c "(New-Object Net.WebClient).DownloadFile('http://update2.aegis.aliyun.com/download/aegis_client_self_check/win32/aegis_checker.exe', $ExecutionContext.SessionState.Path.GetUnresolvedProviderPathFromPSPath('.\aegis_checker.exe'))"; "./aegis_checker.exe"
    说明

    Windows操作系统上暂不支持增强模式。

    非阿里云 - Linux

    • 常规模式(排查约1分钟):以root权限执行以下命令:

      wget "http://aegis.alicdn.com/download/aegis_client_self_check/linux64/aegis_checker.bin" && chmod +x aegis_checker.bin && ./aegis_checker.bin
    • 增强模式(排查约5分钟):以root权限执行以下命令:

      wget "http://aegis.alicdn.com/download/aegis_client_self_check/linux64/aegis_checker.bin" && chmod +x aegis_checker.bin && ./aegis_checker.bin -b "ew0KICAgICJ1dWlkIjogIiIsDQogICAgImNtZF9pZHgiOiAiIiwNCiAgICAiaXNzdWUiOiAib3RoZXJfaXNzdWUiLA0KICAgICJtb2RlIjogMywNCiAgICAianNydl9kb21haW4iOiBbXSwNCiAgICAidXBkYXRlX2RvbWFpbiI6IFtdDQp9"

    非阿里云 - Windows

    常规模式(排查约1分钟):通过以下两种方式之一排查:

    • 下载aegis_checker程序,然后以管理员权限运行。

    • 以管理员权限在cmd窗口中直接执行如下命令:

      powershell -executionpolicy bypass -c "(New-Object Net.WebClient).DownloadFile('http://aegis.alicdn.com/download/aegis_client_self_check/win32/aegis_checker.exe', $ExecutionContext.SessionState.Path.GetUnresolvedProviderPathFromPSPath('.\aegis_checker.exe'))"; "./aegis_checker.exe"
    说明

    Windows操作系统上暂不支持增强模式。

  3. 检查完毕后,将生成的log压缩包导出。服务器的操作系统不同,log压缩包的存储位置不同。

    • Linux系统:检查结果log的压缩包在/root/miniconda2/aegis_checker/output目录下。

    • Windows系统:检查结果log的压缩包在当前目录的./miniconda2/aegis_checker/output目录下。

  4. 结果分析:检查结果的log中,以[root cause]为前缀的就是aegis_checker检测到客户端存在问题。

    1. 部分问题会给出已处理或者处理方案的提示,请按照提示处理即可。

    2. 如果aegis_checker没有给出问题的处理方案提示,请将输出的检查结果截图、log压缩包以及AliUid提供给阿里云技术支持进一步做验证分析。

手动排查

如果客户端显示离线,也可登录服务器,按照以下步骤逐项排查离线原因。

检查客户端进程

检查方法: 确认 AliYunDunAliYunDunUpdate 这两个核心进程是否正在运行。

  • Linux: 使用 ps -ef | grep AliYunDun 命令查看。

  • Windows: 打开“任务管理器” -> “详细信息”或“服务”标签页,查找相关进程和服务。

解决方案: 手动重启客户端进程。

Linux系统

执行以下命令,重启进程。

  1. 关闭相关进程:

    killall AliYunDun
    killall AliYunDunUpdate
  2. 启动最新版本客户端。

    请在 /usr/local/aegis/aegis_client 目录下查找 aegis_10_xx 文件夹,选取版本号数字最大的目录作为最新版本

    例如:在 aegis_10_70aegis_10_73aegis_10_75中,选择 aegis_10_75

    /usr/local/aegis/aegis_client/aegis_10_xx/AliYunDun

Windows系统

在服务项中重新启动云安全中心的两个服务项Alibaba Security Aegis Detect ServiceAlibaba Security Aegis Update Service,在服务列表中选择目标服务,右键选择重新启动。

重启

检查网络连接

检查方法: 确认防火墙或安全组是否放行了到云安全中心的服务端IP或域名(如jsrv.aegis.aliyun.com或 update.aegis.aliyun.com)的出站流量。服务器若无法正常连通云安全中心服务端,也会导致安装失败。

说明

云安全中心服务端IP或域名信息,请参见附录:客户端通信地址(域名和IP)

解决方案:

  1. 确认服务器的DNS服务正常运行。

    如果DNS服务无法运行,重启服务器,或者检查服务器DNS服务是否有故障。

  2. 检查服务器是否设置了网络访问策略配置。

    1. 防火墙ACL规则

      请确认已将云安全中心的服务端IP或域名加入防火墙白名单(仅出方向需添加,入方向无需配置)以允许网络访问。

      说明

      若使用的是阿里云云防火墙,操作步骤请参见配置内网访问互联网的流量管控策略(出向策略)

      防火墙配置示例 (iptables)

      # 允许访问控制服务
      iptables -A OUTPUT -p tcp -d jsrv.aegis.aliyun.com --dport 443 -j ACCEPT
      iptables -A OUTPUT -p tcp -d jsrv.aegis.aliyun.com --dport 80 -j ACCEPT
      
      # 允许访问更新服务
      iptables -A OUTPUT -p tcp -d update.aegis.aliyun.com --dport 443 -j ACCEPT
      iptables -A OUTPUT -p tcp -d update.aegis.aliyun.com --dport 80 -j ACCEPT
      
    2. 阿里云安全组规则

      如果使用阿里云 ECS,具体步骤请参见管理安全组

      说明

      请将云安全中心IP 网段的出方向均放行,端口号不做限制或者放行80443号端口。

      100.100网段为例,配置说明如下:

      • 方向:出方向

      • 授权策略:允许

      • 协议类型:TCP

      • 端口范围:80/443

      • 授权对象:100.100.0.0/16

检查系统资源

检查方法:

确认服务器资源是否充足,资源耗尽会导致客户端无法启动。

  • CPU/内存:使用 top (Linux) 或“任务管理器” (Windows) 查看占用率。

  • 磁盘空间:使用 df -h (Linux) 或“此电脑” (Windows) 查看磁盘剩余空间。

解决方案:

  • 资源占用过高

    • 如果是由 AliYunDun 进程导致,请联系技术支持并提供相关日志。

    • 如果是由其他业务进程导致,请优化业务应用,或考虑升级服务器配置。

  • 磁盘空间不足: 清理不必要的文件,释放磁盘空间。

检查客户端ID是否重复

检查方法: 此问题常见于使用同一系统镜像创建多个服务器实例的场景。请检查以下配置文件中的 uuid 字段值是否在多台服务器上重复。

  • Linux: /usr/local/aegis/aegis_client.conf

  • Windows 系统:

    • 32-bit:C:\Program Files\Alibaba\aegis\aegis_client.conf

    • 64-bit:C:\Program Files (x86)\Alibaba\aegis\aegis_client.conf

解决方案:

使用同一模板服务器制作多个镜像前,先卸载并清理旧客户端,并重新获取安装命令

检查软件冲突

检查方法: 确认服务器上是否安装了其他 HIDS、EDR 或杀毒软件,这些软件可能会与云安全中心客户端冲突。

解决方案:

关闭或卸载第三方安全软件,在云安全中心客户端安装完成后,可以根据需要,重新启动或安装原有的第三方安全软件。

分析客户端日志

检查方法: 查看客户端日志,寻找具体的错误信息。日志文件地址如下:

  • Linux系统:/usr/local/aegis/aegis_client/aegis_12_xx/data/

    说明

    其中 aegis_xx_xx 表示当前运行的最新版本,可以通过 ps -ef|grep AliYunDun 输出的路径中获取。

  • Windows 系统:C:\Program Files (x86)\Alibaba\Aegis\aegis_client\aegis_12_xx\data\

解决方案:

根据日志中记录的错误信息,进行针对性排查。如果错误信息无法自行解决,请联系技术支持,并附上完整的日志文件。