本文介绍如何使用阿里云Prometheus监控ECS主机,以及配置主机监控组件、指标采集、告警的方案,以实现符合您所需的指标采集业务场景。
方案概览
使用Prometheus监控ECS主机大致分为4步,如下:
ECS接入主机监控:接入后,会自动安装各类开源Exporter,托管Prometheus Agent自动采集数据,统一管理。
配置主机监控组件(可选):重新配置主机监控组件参数,例如服务端口,以修复错误的部分,或者满足新的业务需要。
配置指标采集(可选):废弃不需要采集的指标,使指标数据更清晰,也可节省费用。
配置告警(可选):根据采集到的数据触发告警,让您对感兴趣的指标变化有感知,帮助您更好的分析问题。
前提条件
已创建ECS实例。具体操作,请参见通过控制台使用ECS实例(快捷版)。
已开通阿里云资源中心。具体操作,请参见开通资源中心。
说明由于Prometheus依赖阿里云资源中心获取云产品当前登录账户的VPC、ECS等数据进行服务发现,在操作ECS接入主机监控前,需要您已开通资源中心。
1.ECS接入主机监控
接入主机监控后,会默认在ECS主机上安装Node-exporter和Process-exporter,托管Prometheus Agent自动采集数据,数据统一存储、展示、告警,单次采集指标量约为1000条/台。
1.1 接入主机监控
在ARMS控制台的接入中心>基础设施页面,单击主机监控。
在弹出的主机监控页面中,选择目标ECS所属的VPC,按照需求填写配置信息,配置说明请参见步骤一:接入主机监控数据。
单击确定,等待1~2分钟即可完成ECS主机监控接入。
1.2 查看监控大盘
在ARMS控制台的接入管理>已接入环境>ECS环境列表中,单击目标环境名称,进入详情页面。
在组件管理页签,单击组件类型区域的大盘,即可查看内置的Grafana大盘。
说明ECS接入主机监控后,如果监控大盘没有数据,请检查安全组配置,参见接入主机监控后,在监控大盘查看不到数据,为什么?。
2.配置主机监控组件(可选)
在ECS接入主机监控后,如果您想修改主机监控组件的配置,例如主机服务发现的方式、服务端口、采集间隔等,可以参考下面的方案操作。
2.1 配置方案
在ARMS控制台的接入管理>已接入环境>ECS环境列表中,单击目标环境名称,进入详情页面。
找到目标组件,单击设置。
根据需求修改主机监控组件配置,完成后单击确定,配置说明请参见步骤一:接入主机监控数据。
2.2 验证
刷新页面,再次单击设置即可查看到修改生效。
查看监控大盘,观察数据是否符合预期。参见1.2 查看监控大盘。
3.配置指标采集(可选)
可根据您的业务需求配置不需采集的指标,将指标废弃,废弃的指标将不会再采集,帮助您更轻松的分析和管理。
3.1 配置方案
3.2 验证
单击更新后,刷新页面即可查看到修改生效。
查看监控大盘,观察数据是否符合预期。参见1.2 查看监控大盘。
4.配置告警(可选)
您可以配置不同规则的告警,监控感兴趣的指标,当指标的变化触发告警时,可以及时通知您,方便您日常维护和问题分析。
告警分为内置告警和自定义告警两种,内置告警无法新增,如果需要新增告警,可新增自定义告警。下面介绍两种告警的配置方式。
4.1 配置内置告警
内置的告警规则默认会产生告警事件,但不会进行告警通知,如需通知,可参考下文编辑内置告警规则,配置通知方式。
在ARMS控制台的接入管理>已接入环境>ECS环境列表中,单击目标环境名称,进入详情页面。
在组件管理页签,单击组件类型区域的告警规则,即可查看告警事件或者编辑告警。
根据需要编辑告警,单击完成。配置参数的具体说明请参见Prometheus告警规则。
4.2 配置自定义告警
当内置告警无法满足您的需要时,您可以为该Prometheus实例配置自定义告警。
在ARMS控制台的接入管理>已接入环境>ECS环境列表中,单击目标环境名称,进入详情页面。
在组件管理页签,单击基本信息区域的默认指标存储。
进入告警规则页面,即可创建、编辑和查看自定义告警。告警配置说明请参见Prometheus告警规则。
4.3 验证
修改告警配置后,刷新页面即可查看到修改生效。
可配置易触发、无风险的告警规则,配置后尝试触发告警,查看是否符合预期。
说明告警通知的具体方式由您的告警配置决定。