文档

为Knative组件启用监控与告警能力

更新时间:

您可以通过阿里云Prometheus监控设置需要采集的Knative组件的监控指标,并为特定的监控指标设定条件以触发告警。基于阿里云Prometheus,您可以实时跟踪Knative组件的健康状态,及时发现并处理组件的异常状况。

前提条件

已部署Knative

Knative组件的采集指标

重要

Knative组件本身的安装和使用是免费的,但在以下场景中可能产生额外的费用:

  • Knative组件是非托管组件,安装后将占用Worker节点资源。您可以在安装组件时配置各模块的资源申请量。

  • Knative组件采集的Prometheus指标均为自定义指标。建议您在启用此功能前,仔细阅读阿里云Prometheus计费说明,了解自定义指标的免费额度和收费策略。您可以通过账单和用量查询,监控和管理您的资源使用情况。

Knative组件

Knative组件采集指标

knative-serving:

  • activator:负责Pod缩容至0的关键组件。

  • autoscaler:根据负载自动调整Knative服务的实例数量。

  • controller: Knative Serving控制器,用于调和Knative Service等资源。

  • controller-webhook:处理Knative服务控制器的Webhook。

  • 组件当前可用的实例数量。

  • 组件使用的CPU资源。

  • 组件使用的Memory资源。

knative-eventing:

  • eventing-controller:负责协调和处理事件。

  • eventing-webhook:处理事件Webhook请求的组件。

步骤一:安装Prometheus监控组件

创建集群时开启

在创建集群的组件配置页面,选中使用阿里云可观测监控 Prometheus 版。具体操作,请参见创建Kubernetes托管版集群

image.png

创建集群时,系统将默认勾选使用阿里云可观测监控 Prometheus 版。集群创建完成后,系统将自动配置阿里云Prometheus监控服务。

在已有集群中开启

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 > Prometheus 监控

  3. Prometheus 监控页面,按照页面提示完成相关组件的安装和监控大盘的检查。

    控制台会自动安装组件、检查监控大盘。安装完成后,您可以单击各个页签查看相应监控数据。

(可选)步骤二:查看Pod监控信息

在进行报警策略设置前,您可以预先查看Pod相关监控信息。

  1. 登录Prometheus控制台

  2. 在页面顶部,选择所创建集群的所在地域。

  3. 在左侧导航栏单击实例列表,进入可观测监控 Prometheus 版的实例列表页面。

  4. 实例列表区域,单击目标实例,然后在实例详情页面的左侧导航栏,单击大盘列表,然后在大盘列表页面,单击目标大盘的名称,即可在浏览器新窗口中打开对应的监控仪表板,并查看Pod的CPU、Memory以及Pod个数。

步骤三:新建通知策略

您需要先在通知策略页面创建自定义通知策略。当告警触发时,告警中心会根据配置的通知策略对产生的告警事件进行分派、处理并发送通知。具体操作,请参见通知策略

步骤四:设置组件告警规则

  1. 登录Prometheus控制台

  2. 在左侧导航栏,单击告警规则列表,然后在页面顶部,选择所创建集群的所在地域。

  3. Prometheus告警规则页面左上角,单击创建Prometheus告警规则

    您可以通过静态阈值自定义PromQL创建Prometheus告警规则。具体操作,请参见Prometheus告警规则

  4. 单击完成,规则即可生效。

相关文档

您可以通过SLS对Knative组件进行Docker标准输出日志的采集,请参见采集组件日志

  • 本页导读 (1)