本文主要介绍在专有云V3环境下,OPS1或OPS2机器夯机场景下DNS修复的应急方法。
说明:因夯机,已导致业务异常。
注意:本方案仅针对OPS1或OPS2单机因为高负载等原因导致的夯机场景,不包含双机同时夯机场景。
OPS1或者OPS2单台机器因某些情况导致夯机时,流量可能会继续往该机DNS分发,从而导致解析失败。
OPS1或者OPS2单台机器负载高,同时满足以下四个条件时,需要人工介入进行应急处置。
应急处置分以下三种场景:
/etc/init.d/named stop; /etc/init.d/ospfd stop; /etc/init.d/bgpd stop
说明:OPS负载高的处理方法请联系阿里云技术支持参见“通用方案:专有云环境物理机CPU负载过高的排查思路”方案进行处理。
/etc/init.d/named start; /etc/init.d/ospfd start; /etc/init.d/bgpd start
直接重启高负载物理机。
sys执行以下命令,查看网络信息,从DSW、LSW查看路由信息是否正常。
intten0/0/1
shutdown
quit
quit
save
displayiproute [$Port]
说明:[$Port]为广播端口。
sys执行以下命令,查看网络信息,从DSW、LSW查看路由信息是否正常。
intten0/0/1
undoshutdown
quit
quit
save
displayiproute [$Port]
rndc querylog off; ps axu | grep anycast_check.sh | awk '{print $2}' | xargs kill -9
rndc querylog on; /root/opsbuild/anycast_check_start.sh
确认客户域名解析正常。
登录高负载机器,执行如下命令,获取dnsslave容器的ID,并记录为[$Dns_Slave_ID]。
sudo docker ps | grep dnsslave
docker restart [$Container_ID]
说明: [$Container_ID]为dnsslave容器的ID。