问题现象
服务访问异常:业务响应时间显著延长,出现请求超时或服务无法访问的情况。
监控指标过高:通过ECS控制台或云监控查看,实例的公网出方向带宽使用率持续高于80%,接近或达到带宽上限或网络连接数突然增加。
收到监控告警:收到短信或邮件,提示网络带宽使用率已超过预设的告警阈值。
问题原因
异常进程或恶意程序:实例被植入挖矿程序、木马病毒或被用作DDoS攻击的肉机,此类恶意程序会产生大量异常网络流量。
网络攻击:实例对外提供服务的端口遭受了如DDoS攻击、暴力破解等恶意访问,导致入带宽被大量无效请求占满。
实例网络规格不足:随着业务发展,实例的带宽规格已无法承载正常的业务流量,达到网络性能瓶颈。
解决方案
首先通过sar工具定位流量异常的网卡,然后使用iftop工具(定位消耗带宽的对端IP)或nethogs工具(定位高流量进程)分析网卡流量,最后根据进程和IP性质采取相应措施。
步骤一:定位高流量网卡
通过sar工具确认高流量网卡,明确排查目标。
通过VNC连接登录ECS实例。
访问ECS控制台-实例。在页面左侧顶部,选择目标资源所在的资源组和地域。
进入目标实例详情页,单击远程连接,选择通过VNC远程连接。输入账号和密码,登录ECS实例。
统计网络接口数据。
# -n DEV: 报告网络设备统计信息 # 1 5: 每1秒采样一次,共采样5次 sudo sar -n DEV 1 5确定高流量网卡。
重点关注
Average的txkB/s(平均出网带宽)。通过对比,找出数值最高的IFACE(网卡名称)。rxkB/s表示平均入网带宽速率。
示例中,
eth0网卡的txkB/s最高,因此eth0为高流量网卡。
步骤二:分析并处理高流量问题
分析网卡流量。
iftop:以“连接视角”监控网卡流量,可找出与本机通信流量最大的IP地址和端口。Web服务可通过
iftop定位高流量IP,并结合logwatch等工具分析其Web日志,以判定流量合规性。nethogs:以“进程视角”监控网卡流量,可找出占用网络带宽最大的进程。
iftop工具
安装
iftop工具。Alibaba Cloud Linux及Centos类型
sudo yum install -y epel-release sudo yum install -y iftopUbuntu及Debian类型
sudo apt update sudo apt install -y iftop
监控高流量网卡。
<IFACE>请替换为步骤一定位的高流量网卡名称。# -i <IFACE>: 指定监控的网卡为<IFACE> # -P: 显示端口号 (Port) sudo iftop -i <IFACE> -P以高流量网卡名称为
eth0为例,执行sudo iftop -i eth0 -P。分析网卡流量,查找消耗带宽的对端IP。

实时流量信息由高到低排列,其中,
=>符号的流量信息,即本机向对端IP发送数据的速率。示例中在过去2秒内,本机向IP140.205.11.x的平均出网流量为4.32Mb/s。输入
q,退出iftop工具界面查看端口对应的进程。
<消耗带宽的对端IP>通过上一步获取。sudo netstat -antp | grep <消耗带宽的对端IP>示例输出:

示例中,本地IP为
172.16.0.x,对端IP为140.205.11.x,对应进程为nginx:worker,PID为2282。
nethogs工具
使用示例
安装nethogs工具。
Alibaba Cloud Linux及Centos类型
sudo yum install -y epel-release sudo yum install -y nethogsUbuntu及Debian类型
sudo apt update sudo apt install -y nethogs
监控高流量网卡。
<IFACE>请替换为步骤一定位的高流量网卡名称。# 默认监控间隔为1秒,可通过-d指定监控间隔。 sudo nethogs <IFACE>以高流量网卡名称为
eth0为例,执行sudo nethogs eth0。分析网卡流量。

其中,
SENT表示发送的流量信息,即本机向对端IP(接收方)发送数据的速率。示例中流量占用最高的进程为nginx:worker process,出网流量约为696KB/s,其进程ID为2282,输入q可退出工具交互界面。
根据进程或对端IP选择解决方案。
后续建议
建议对系统指标进行周期性采集以供持续分析,请参见使用atop工具监控Linux系统指标。
配置实例监控与告警环境,便于后续风险和异常的通知。