自动升级CoreDNS前的检查与配置-容器服务 Kubernetes 版 ACK-阿里云

本文介绍CoreDNS升级前的检查和优化操作，以及自动升级的步骤。

前提条件

已通过kubectl工具连接集群。具体操作，请参见获取集群KubeConfig并通过kubectl工具连接集群。

升级CoreDNS过程说明

CoreDNS升级过程中，ACK会通过更新YAML模板对CoreDNS的Deployment以RollingUpgrade模式进行升级：在新版本的CoreDNS Pod成功运行后，才会删除旧版本的Pod，升级后CoreDNS的Pod数量不会变更。但如果旧版本Pod仍有正在处理中的DNS解析，可能会导致解析失败。在这种情况下，请通过使用NodeLocal DNSCache组件保证集群中DNS服务的可用性。
若此前对YAML模板进行手动自定义变更，修改了容忍Toleration、内存和CPU的资源请求和限制等字段，这些修改将会被覆盖。针对这种情况，请手动升级CoreDNS，或者在自动升级CoreDNS后再次更新YAML模板内容。关于如何手动升级，请参见非托管CoreDNS手动升级。
如果使用了IPVS作为kube-proxy负载均衡模式，在CoreDNS升级完成后，可能会出现五分钟内全集群范围内的解析超时或失败的情况，通过以下任意方式可以降低IPVS缺陷的影响：
- 修改kube-proxy中IPVS UDP会话保持的超时时间，具体操作，请参见如何修改kube-proxy中IPVS UDP会话保持的超时时间？。
- 使用节点DNS缓存NodeLocal DNSCache，具体操作，请参见使用NodeLocal DNSCache。
- 如果集群节点采用Alibaba Cloud Linux 2，建议将节点内核升级至4.19.91-25.1.al7.x86_64或更新版本，关于Alibaba Cloud Linux 2的版本记录，请参见Alibaba Cloud Linux 2镜像发布记录。
- 如果集群节点采用其它操作系统，可以配置IPVS类型集群的UDP超时时间避免此问题。具体操作，请参见配置IPVS类型集群的UDP超时时间。
- 如果不希望执行上述操作，可以将所有业务容器接入NodeLocal DNSCache后再进行CoreDNS升级。具体操作，请参见使用NodeLocal DNSCache组件。
升级过程约2分钟，实际耗时可能和集群中CoreDNS副本数相关。升级采用了优雅终止策略，旧的副本不会立即停止，因此不影响业务解析。升级若因各种异常导致失败，十分钟内系统会自动回滚。

开启`ready`插件

如果之前手动升级过CoreDNS且当前CoreDNS版本大于1.5.0，那么在自动升级CoreDNS之前，请检查CoreDNS配置文件是否已经开启ready插件。如果配置文件中没有ready插件，请开启ready插件，然后再进行自动升级CoreDNS操作，否则CoreDNS将无法正常启动。

登录容器服务管理控制台，在左侧导航栏选择集群列表。
在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择配置管理 > 配置项。
在配置项页面顶部设置命名空间为kube-system，然后单击coredns右侧操作列下的YAML 编辑。

在查看YAML面板检查是否有ready字段，如果没有，请添加ready字段，然后单击确定。

apiVersion: v1
data:
 Corefile: |
  .:53 {
    errors
    health {
      lameduck 15s
    }
    ready #如果没有这一行，请增加本行，注意缩进与kubernetes保持一致。
    kubernetes cluster.local in-addr.arpa ip6.arpa {
      pods verified
      fallthrough in-addr.arpa ip6.arpa
    }
    prometheus :9153
    forward . /etc/resolv.conf {
      max_concurrent 1000
    }
    cache 30
    loop
    log
    reload
    loadbalance
  }

执行以下命令，检查CoreDNS Pod的标准输出是否加载了CoreDNS配置。热加载新配置一般需要30s。
```
kubectl logs coredns-78d4b8bd88-n6wjm -n kube-system
```
预期输出中包含plugin/reload信息，说明加载了CoreDNS配置。

开始升级

通过控制台的组件管理入口进行CoreDNS的版本升级。

登录容器服务管理控制台，在左侧导航栏选择集群列表。
在集群列表页面，单击目标集群名称，然后在左侧导航栏，单击组件管理。
在组件管理页面，搜索CoreDNS，然后单击升级。

配置IPVS类型集群的UDP超时时间

如果集群使用了kube-proxy IPVS模式，IPVS的会话保持策略会导致整个集群在升级完成后五分钟内出现概率性解析失败的问题。请按以下方式降低IPVS UDP类型的会话保持超时时间至10秒，以减少解析失败的次数。如果集群中包含UDP类型的业务，请在操作前评估该操作是否有影响。

如果集群不是IPVS类型，请忽略配置IPVS类型集群的UDP超时时间的操作。关于如何查看kube-proxy代理模式，请参见查看集群信息。

K8s 1.18及以上版本集群

控制台操作方式

登录容器服务管理控制台，在左侧导航栏选择集群列表。
在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择配置管理 > 配置项。
在配置项页面选择kube-system命名空间，然后单击配置项kube-proxy-worker操作列的YAML 编辑。

在查看YAML面板中的ipvs字段下，添加udpTimeout: 10s，然后单击确定。

apiVersion: v1
data:
  config.conf: |
    apiVersion: kubeproxy.config.k8s.io/v1alpha1
    kind: KubeProxyConfiguration
    # 其它不相关字段已省略。
    mode: ipvs
    # 如果ipvs键不存在，需要添加此键。
    ipvs:
      udpTimeout: 10s

重建所有名为kube-proxy-worker的容器。
1. 在集群信息页左侧导航栏中，选择工作负载 > 守护进程集。
2. 在守护进程集列表中，找到并单击kube-proxy-worker。
3. 在kube-proxy-worker页面中的容器组页签下对应容器组右侧，选择更多 > 删除，然后单击确定。
  重复操作删除所有容器组。删除容器组后，系统会自动重建所有容器。
验证UDP超时时间的配置是否成功。
1. 执行以下命令安装ipvsadm。
  ipvsadm是IPVS模块的管理工具。更多信息，请参见ipvsadm。
```
sudo yum install -y ipvsadm
```
2. 在集群任意一台ECS节点中执行以下命令查看第三个数字。
```
sudo ipvsadm -L --timeout
```
  如果输出结果中第三个数字是10，则说明IPVS类型集群的UDP超时时间变更成功。
  变更成功后，请观察至少五分钟后再进行下一步操作。

命令行操作方式

执行以下命令修改kube-proxy的配置文件kube-proxy-worker。
```
kubectl -n kube-system edit configmap kube-proxy-worker
```

在kube-proxy配置文件中的ipvs字段下，添加udpTimeout: 10s并保存退出。

apiVersion: v1
data:
  config.conf: |
    apiVersion: kubeproxy.config.k8s.io/v1alpha1
    kind: KubeProxyConfiguration
    # 其它不相关字段已省略。
    mode: ipvs
    # 如果ipvs键不存在，需要添加此键。
    ipvs:
      udpTimeout: 10s

执行以下命令重建所有名为kube-proxy-worker的容器。
1. 执行以下命令查看存在的容器组信息。
```
kubectl -n kube-system get pod -o wide | grep kube-proxy-worker
```
2. 执行以下命令删除上步骤中查看所有容器，系统将会自动重建名为kube-proxy-worker容器。
```
kubectl -n kube-system delete pod <kube-proxy-worker-****>
```
  将<kube-proxy-worker-****>替换为上述所有容器组名称。
验证UDP超时时间的配置是否成功。
1. 执行以下命令安装ipvsadm。
  ipvsadm是IPVS模块的管理工具。更多信息，请参见ipvsadm。
```
sudo yum install -y ipvsadm
```
2. 在集群任意一台ECS节点中执行以下命令查看第三个数字。
```
sudo ipvsadm -L --timeout
```
  如果输出结果中第三个数字是10，则说明IPVS类型集群的UDP超时时间变更成功。
  变更成功后，请观察至少五分钟后再进行下一步操作。

K8s 1.16及以下版本集群

此类版本集群的kube-proxy不支持udpTimeout参数，推荐使用OOS服务批量在所有集群机器上执行ipvsadm命令以调整UDP超时时间配置。命令如下：

sudo yum install -y ipvsadm
sudo ipvsadm -L --timeout > /tmp/ipvsadm_timeout_old
sudo ipvsadm --set 900 120 10
sudo ipvsadm -L --timeout > /tmp/ipvsadm_timeout_new
diff /tmp/ipvsadm_timeout_old /tmp/ipvsadm_timeout_new

关于OOS的批量操作实例介绍，请参见批量操作实例。

后续步骤

升级完成后，可以对CoreDNS进行优化，合理配置CoreDNS。具体操作，请参见优化CoreDNS配置。