通过ADP-Local问题排查
本文根据客户遇到各种问题的场景,总结了一些利用ADP-Local帮助客户进行问题排查的方法。
发现问题
在ADP底座中有以下途径发现问题:
接收到告警通知
客户可以通过钉钉、邮件等接收到告警通知,根据告警通知查看告警问题。
进入ADP-Local首页发现异常信息
进入ADP-Local首页,发现有组件状态异常、告警消息、诊断建议。
排查问题
发现问题后,接下来就是排查和定位问题,在ADP-Local可以按不同场景排查问题。
自动诊断并提供诊断建议
进入ADP-Local首页,如果该问题有诊断建议,则进入诊断建议详情,定位并解决问题。
组件部署状态异常诊断
如果发现组件部署状态有问题,先进入【组件列表】查看组件异常信息:
如果是Pod部署状态异常,请进入【Pod部署状态异常诊断】章节
如果是workloadInstallFailed,那么就是helm安装错误:
kubectl get app ,然后 kubectl describe app xxx,查看 app 的 event,然后根据 event 错误提示进行处理
如果从 event 中查看不到相关的错误信息
kubectl get pods -A | grep cn-app-operator
kubectl logs -f -n acs-system cn-app-operator-xxx 查看相关具体日志
Pod部署状态异常诊断
如果发现是Pod部署状态异常,可以进入【组件详情->容器组】查看Pod以下信息:
查看Pod Yaml中的Status中的错误信息
查看Pod的错误事件
如果Pod部署正常只是启动有问题,可以查看Pod错误日志
如果以上几步都无法定位问题,可以进入Pod Debug进行手工诊断:
解决问题
在ADP-Local中解决问题的途径主要就是运维操作,你可以进入该组件的运维操作界面,根据不同问题进行不同操作:
如果没有找到合适的运维操作,可以使用kubectl edit相关资源进行修改。
附录
Kubernetes问题排查全景图
若有收获,就点个赞吧