文档

使用Prometheus监控ECS主机

更新时间:

本文介绍如何使用阿里云Prometheus对已接入管理的ECS环境,通过修改主机监控组件参数实现符合您所需的指标采集业务场景。

前提条件

已通过接入中心接入主机监控。具体操作,请参见主机可观测

修改主机服务发现方式和服务端口

  1. 登录ARMS控制台

  2. 在左侧导航栏,选择接入管理

  3. 接入管理页面,单击已接入组件页签。在搜索框中输入主机监控,然后单击主机监控卡片。

  4. 主机监控面板,找到对应的主机监控接入环境名称,然后单击操作列下的查看详情

    image

  5. 单击设置

    image

  6. 主机监控组件面板,修改主机服务发现方式和服务端口,然后单击确定,刷新页面即可看到修改生效。

    lQLPJx--LumRn0XNBbrNBqqw3jSQ5S4KLUYGTbxH2GOsAA_1706_1466

    参数

    说明

    主机服务发现方式

    • 污点标签选择黑名单机制。标签匹配到的实例将不会接入Prometheus,没有匹配到的ECS监控指标将会接入Prometheus,默认不会采集容器监控服务的节点。

    • 无条件(选择当前VPC所有Linux实例)安装和采集当前VPC内所有ECS主机监控指标。

    • 标签选择白名单机制。标签匹配到的实例将会接入Prometheus,没有匹配到的ECS实例将不会接入Prometheus。

    • IP域选择该方式是提供一个网段,当ECS的IP地址匹配该网段时,即被选中。如果填写VPC对应的网段,即代表命中当前VPC全部ECS。

    • 实例ID指定需要接入的实例ID,多个实例ID使用英文半角逗号分隔。

    您还可以根据需要修改主机运行Exporter端口、采集间隔以及自定义标签注入

    Node-Exporter 服务端口

    默认9100端口。

    Metric 采集间隔(单位/秒)

    默认15秒。

    自定义标签注入

    自定义标签注入是提取ECS主机的标签,例如配置test、demo两个标签注入,则服务发现对应的ECS主机上需要具备这两个标签,否则标签注入会因提取不到ECS主机标签而注入失败。

配置指标废弃

  1. 登录ARMS控制台

  2. 在左侧导航栏,选择接入管理

  3. 接入管理页面,单击已接入组件页签。在搜索框输入主机监控,然后单击主机监控卡片。

  4. 主机监控面板,找到对应的主机监控接入环境名称,然后单击操作列下的查看详情

    image

  5. 单击指标采集页签,单击指标废弃,可以将无必要的指标名称进行配置,以此节省费用。

    image.png

计费说明

接入主机监控后,会默认在ECS主机上安装Node-exporter和Process-exporter,单次采集指标量约为1000条/台,采集的指标按照阿里云Prometheus收费标准。具体内容,请参见计费说明

常见问题解答

选择了自动安装,但Node-Exporter并没有在我的ECS中安装成功,这是为什么?

请检查以下几点:

  1. 您的ECS实例是否处于运行状态。

  2. 目标ECS实例是否已经安装了开源Node-Exporter并占用了默认9100端口。如果已安装并占用了9100端口,需要在接入管理页面,单击设置修改阿里云Node-exporter的安装端口,避免端口冲突导致的安装失败。

如何验证Node-Exporter是否成功安装?

您可以通过访问http://<ECS-IP>:<PORT>/metrics查看是否有指标数据被输出。如果页面显示指标数据,则表明安装成功。

如果不启用自动配置安全组,需要如何手动添加规则?

您需要登录ECS管理控制台在ECS实例的安全组设置中手动添加入方向规则,以允许指定的监控端口(如9100和9256)的访问(设置为当前VPC网段)。

在接入过程中遇到了网络连接问题,该怎么办?

首先,确认被监控的ECS实例和Prometheus探针服务能够在网络上互相访问。检查VPC的路由表配置,确保数据流向正确。然后检查防火墙或安全组规则是否正确配置,以允许监控流量通过。

监控数据不准确或缺失,可能是什么原因导致的?

首先检查Node-Exporter和Process-exporter(如果启用)是否正常运行。使用命令行工具(如curl)查询Exporter暴露的指标页面,查看是否可以正常返回数据。如果Exporter运行异常,请检查日志。

启用了进程状态指标采集后,有哪些额外的考虑?

进程状态指标采集通过Process-exporter实现,默认使用9256端口。请确保该端口在安全组中同样被允许,以便指标能够被成功采集。此外,进程状态指标增加了对系统资源的小额额外消耗,通常不会对系统性能造成显著影响,但在资源极为有限的环境中需要注意。

  • 本页导读 (1)