Linux实例网络带宽使用率较高问题的排查与处理

问题现象

  • 服务访问异常:业务响应时间显著延长,出现请求超时或服务无法访问的情况。

  • 监控指标过高:通过ECS控制台或云监控查看,实例的公网出方向带宽使用率持续高于80%,接近或达到带宽上限或网络连接数突然增加。

  • 收到监控告警:收到短信或邮件,提示网络带宽使用率已超过预设的告警阈值。

问题原因

  • 异常进程或恶意程序:实例被植入挖矿程序、木马病毒或被用作DDoS攻击的肉机,此类恶意程序会产生大量异常网络流量。

  • 网络攻击:实例对外提供服务的端口遭受了如DDoS攻击、暴力破解等恶意访问,导致入带宽被大量无效请求占满。

  • 实例网络规格不足:随着业务发展,实例的带宽规格已无法承载正常的业务流量,达到网络性能瓶颈。

解决方案

首先通过sar工具定位流量异常的网卡,然后使用iftop工具(定位消耗带宽的对端IP)或nethogs工具(定位高流量进程)分析网卡流量,最后根据进程和IP性质采取相应措施。

步骤一:定位高流量网卡

通过sar工具确认高流量网卡,明确排查目标。

  1. 通过VNC连接登录ECS实例。

    1. 访问ECS控制台-实例。在页面左侧顶部,选择目标资源所在的资源组和地域。

    2. 进入目标实例详情页,单击远程连接,选择通过VNC远程连接。输入账号和密码,登录ECS实例。

  2. 统计网络接口数据。

    # -n DEV: 报告网络设备统计信息
    # 1 5: 每1秒采样一次,共采样5次
    sudo sar -n DEV 1 5
  3. 确定高流量网卡。

    重点关注AveragetxkB/s(平均出网带宽)。通过对比,找出数值最高的IFACE (网卡名称)。

    rxkB/s表示平均入网带宽速率。

    image

    示例中,eth0网卡的txkB/s最高,因此eth0为高流量网卡。

步骤二:分析并处理高流量问题

  1. 分析网卡流量。

    • iftop:以“连接视角”监控网卡流量,可找出与本机通信流量最大的IP地址和端口

      Web服务可通过 iftop 定位高流量IP,并结合 logwatch 等工具分析其Web日志,以判定流量合规性。
    • nethogs:以“进程视角”监控网卡流量,可找出占用网络带宽最大的进程。

    iftop工具

    1. 安装iftop工具。

      • Alibaba Cloud LinuxCentos类型

        sudo yum install -y epel-release
        sudo yum install -y iftop
      • UbuntuDebian类型

        sudo apt update
        sudo apt install -y iftop
    2. 监控高流量网卡。

      <IFACE>请替换为步骤一定位的高流量网卡名称。

      # -i <IFACE>: 指定监控的网卡为<IFACE>
      # -P: 显示端口号 (Port)
      sudo iftop -i <IFACE> -P
      以高流量网卡名称为eth0为例,执行sudo iftop -i eth0 -P
    3. 分析网卡流量,查找消耗带宽的对端IP

      image

      实时流量信息由高到低排列,其中,=> 符号的流量信息,即本机向对端IP发送数据的速率。示例中在过去2秒内,本机向IP 140.205.11.x 的平均出网流量为 4.32Mb/s

    4. 输入q,退出iftop工具界面

    5. 查看端口对应的进程。

      <消耗带宽的对端IP>通过上一步获取。

      sudo netstat -antp | grep <消耗带宽的对端IP>

      示例输出:image

      示例中,本地IP172.16.0.x,对端IP140.205.11.x,对应进程为nginx:worker,PID2282

    nethogs工具

    使用示例

    1. 安装nethogs工具。

      • Alibaba Cloud LinuxCentos类型

        sudo yum install -y epel-release
        sudo yum install -y nethogs
      • UbuntuDebian类型

        sudo apt update
        sudo apt install -y nethogs
    2. 监控高流量网卡。

      <IFACE>请替换为步骤一定位的高流量网卡名称。

      # 默认监控间隔为1秒,可通过-d指定监控间隔。
      sudo nethogs <IFACE>
      以高流量网卡名称为eth0为例,执行sudo nethogs eth0
    3. 分析网卡流量。

      image

      其中,SENT 表示发送的流量信息,即本机向对端IP(接收方)发送数据的速率。示例中流量占用最高的进程为nginx:worker process,出网流量约为696KB/s,其进程ID2282,输入q可退出工具交互界面。

  2. 根据进程或对端IP选择解决方案。

    • 若定位到的进程(如wget、curl等下载工具,或未知程序)行为可疑,或其通信的对端IP地址为非法IP:

      • 终止异常进程:通过sudo kill -15 <PID>结束异常进程。<PID>请替换为定位的高流量进程PID。

        重要

        结束进程前,请务必确认该进程非核心业务进程,避免造成业务中断。

      • 拦截非法IP管理安全组规则拦截非法IP地址访问。

      • 查杀恶意程序:使用云安全中心的病毒查杀功能(付费功能),全面扫描实例并清理病毒。

    • 若高流量为正常业务进程产生,表明为业务本身的正常需求:

      • 升级带宽:当前实例的网络规格已成为瓶颈,应升级实例带宽

      • 优化程序:检查业务代码是否存在可优化之处,例如减少不必要的数据传输、增加缓存、压缩数据等。

      • 限制速率:若业务允许,可使用iptables等工具对特定IP或端口的流量进行限速,避免单个用户或服务占满全部带宽。

    • 若未存在占用带宽异常的进程,但整体带宽使用率依然居高不下,表明实例承载的总业务量超过了其网络处理能力,应升级实例带宽

后续建议