通过ADP-Local问题排查

更新时间: 2023-04-12 10:14:52

本文根据客户遇到各种问题的场景,总结了一些利用ADP-Local帮助客户进行问题排查的方法。

发现问题

在ADP底座中有以下途径发现问题:

接收到告警通知

客户可以通过钉钉、邮件等接收到告警通知,根据告警通知查看告警问题。

进入ADP-Local首页发现异常信息

进入ADP-Local首页,发现有组件状态异常、告警消息、诊断建议。

image

排查问题

发现问题后,接下来就是排查和定位问题,在ADP-Local可以按不同场景排查问题。

自动诊断并提供诊断建议

进入ADP-Local首页,如果该问题有诊断建议,则进入诊断建议详情,定位并解决问题。

image

组件部署状态异常诊断

如果发现组件部署状态有问题,先进入【组件列表】查看组件异常信息:

image
  • 如果是Pod部署状态异常,请进入【Pod部署状态异常诊断】章节

  • 如果是workloadInstallFailed,那么就是helm安装错误:

    • kubectl get app ,然后 kubectl describe app xxx,查看 app 的 event,然后根据 event 错误提示进行处理

    • 如果从 event 中查看不到相关的错误信息

      • kubectl get pods -A | grep cn-app-operator

      • kubectl logs -f -n acs-system cn-app-operator-xxx 查看相关具体日志

Pod部署状态异常诊断

如果发现是Pod部署状态异常,可以进入【组件详情->容器组】查看Pod以下信息:

  • 查看Pod Yaml中的Status中的错误信息

image
  • 查看Pod的错误事件

image
  • 如果Pod部署正常只是启动有问题,可以查看Pod错误日志

image
  • 如果以上几步都无法定位问题,可以进入Pod Debug进行手工诊断:

image

解决问题

  • 在ADP-Local中解决问题的途径主要就是运维操作,你可以进入该组件的运维操作界面,根据不同问题进行不同操作:

image
  • 如果没有找到合适的运维操作,可以使用kubectl edit相关资源进行修改。

附录

Kubernetes问题排查全景图image

若有收获,就点个赞吧

阿里云首页 云原生应用交付平台 相关技术圈