可观测性FAQ

更新时间:2025-02-18 09:25:21

为什么可观测监控Prometheus版数据异常无法显示?

可观测监控 Prometheus 版数据异常无法显示。可能是在同一地域下创建过同名集群,且该同名集群已删除,但可观测监控 Prometheus 版插件没有同步删除,导致同名新集群的可观测监控 Prometheus 版插件安装失败。

请参见以下流程解决。

  1. ARMS控制台中卸载旧同名集群的可观测监控 Prometheus 版插件,请参见卸载监控插件

  2. 在新同名集群中安装可观测监控 Prometheus 版插件,请参见步骤一:开启阿里云Prometheus监控

kubectl top pod/node为什么全部没有数据?

请参见以下方式进行预检查。

  1. 执行以下命令,检查metrics-serverAPI Service是否正常。

    kubectl get apiservices

    metris

    返回结果中v1beta1.metrics.k8s.io显示True,说明metrics-serverAPI Service正常。

  2. 可选:如果metrics-serverAPI Service不正常,在metrics-server所在的节点上执行以下命令,检查metrics-server443端口与8082端口是否可以在集群中正常访问。

    curl -v 127.0.0.1:8082/apis/metrics/v1alpha1/nodes

    执行以上命令,能正常返回数据,说明metrics-server443端口与8082端口可以在集群中正常访问。

  3. 可选:如果metrics-server443端口与8082端口无法在集群中正常访问,重启metrics-server。

    您可以通过删除metrics-serverPod的方式重启metrics-server。

    1. 登录容器服务管理控制台,在左侧导航栏选择集群列表

    2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择工作负载 > 无状态

    3. 无状态页面顶部设置命名空间kube-system,单击metrics-server。

    4. 容器组页签下,选择metrics-serverPod操作列下的更多>删除,然后在对话框单击确定

按上述说明检查后,如果仍然没有发现问题,请按照以下工单模板提交工单

工单模板:

  1. API Service是否正常?

  2. metrics-server 4438082端口是否可达?

  3. 提供集群ID。

kubectl top pod/node为什么部分没有数据?

请按照以下方式进行预检查。

  • 检查是特定的节点上所有Pod无数据,还是特定的Pod无数据。如果是特定的节点上所有Pod无数据,请检查节点是否存在时区漂移,可以通过NTP服务器的date命令进行时区校验。

  • 检查metrics-server Pod到特定的Node10255端口的网络连通性。

按上述说明检查后,如果仍然没有发现问题,请按照以下工单模板提交工单

工单模板:

  1. 单个Node上的Pod是否全部无数据?

  2. 节点时区是否有漂移?

  3. metrics-server到指定节点的连通性是否可达?

HPA无法获取metrics数据怎么办?

请按照以下方式进行预检查。

检查对应的Pod执行kubectl top pod pod-id的结果。如果数据异常,请参见kubectl top pod/node为什么全部没有数据?kubectl top pod/node为什么部分没有数据?的检查方法进行检查。

按上述说明检查后,如果仍然没有发现问题,请按照以下工单模板提交工单

工单模板:

  1. 监控数据是否有异常?

  2. 执行kubectl describe hpa hpa-name,提交元数据信息。

滚动发布时为什么HPA额外弹出了多余的Pod?

请按照以下方式进行预检查。

检查metrics-server是否升级到了最新的版本。如果版本没有问题,在kube-system命名空间下的metrics-server配置启动参数。

--metric-resolution=15s
--enable-hpa-rolling-update-skipped=true

按上述说明检查后,如果仍然没有发现问题,请按照以下工单模板提交工单

工单模板:

  1. 检查metrics-server的版本是否为最新?

  2. 检查配置参数是否已经增加防误弹能力?

  3. 执行kubectl describe hpa hpa-name,提交HPA的描述。

  • 本页导读 (1)
  • 为什么可观测监控Prometheus版数据异常无法显示?
  • kubectl top pod/node为什么全部没有数据?
  • kubectl top pod/node为什么部分没有数据?
  • HPA无法获取metrics数据怎么办?
  • 滚动发布时为什么HPA额外弹出了多余的Pod?