主机可观测

可观测监控 Prometheus 版支持通过node-exporter采集ECS Linux或Windows主机操作系统相关指标,也支持process-exporter采集进程相关监控数据,另外基于textfile的方式也支持采集用户写到文件中自定义监控指标。

前提条件

主机监控优势

阿里云Prometheus主机监控针对阿里云ECS服务器提供了一个高效且易于管理的监控方案,这一方案的特点是顺应了现代云计算环境中对于可观测性和自动化管理的需求。

阿里云Prometheus提供的主机监控,具备阿里云ECS服务器、自建IDC内服务器、云厂商服务器全类型主机接入能力。针对阿里云ECS服务器可根据配置自动安装各类开源Exporter,各类Exporter采集配置自动生成。托管Prometheus Agent实现自动采集,采集数据统一存储、统一展示、统一告警。非阿里云主机不具备自动服务发现的能力,所以需要依赖用户在接入时手动安装阿里云采集探针,主动将监控数据上报到阿里云Prometheus存储。

image

优势

说明

主机秒级发现

  • 适应性:自动服务发现机制允许监控系统快速适应云资源的动态变化,确保所有运行中的实例都被及时监控。

  • 多样性:支持多种服务发现类型,满足不同场景下的监控需求,例如支持Kubernetes集群内服务的自动发现,以及其他类型云服务的集成。

探针秒级安装

  • 即插即用:自动化安装Exporter,使得新启动的计算节点可以立即被监控系统识别并收集其度量,无需人为干预。

  • 全面监控:提供多种Exporter,包括Node-exporter、Process-exporter、GPU-exporter和中间件Exporter,进行全方位的性能追踪。

指标秒级采集

  • 配置简化:自动化配置生成减轻了运维人员手动配置的负担,确保所有节点和服务的指标都能被准确无误地采集。

  • 灵活性:配置可根据现有的监控需求作出相应调整,带来灵活性和可扩展性,应对复杂多变的监控环境。

主机从创建到纳入监控系统,整体可以在30 ~ 60s以内完成。主机所有指标数据可以支持1 ~ 60s时间间隔的灵活调整。整体实现主机全方位秒级监控能力。

探针Serverless化

  • 集中管理:通过托管的Prometheus Agent统一管理数据采集,简化监控架构,提高运维效率,且用户对数据采集链路无感知。

  • 高效能:因为抽象了监控算法的复杂性,使用Agent可以减少误配的可能性,提高监控数据的准确性和时效性。

智能指标标签

  • 自动摘取阿里云ECS主机的标签、资源组、区域等信息,并自动注入到整个指标体系中,方便快捷。

  • 可自定义添加额外标签,进一步提升标签体系的灵活性,例如自定义业务标识、环境标识、数据来源标识等。

超大规模数据采集与存储

  • 支持超大规模主机接入,采用独享与共享并存托管模式,依据主机接入规模动态调整托管资源,保证接入的时效性和准确性。

  • 存储可支持超大规模指标存储,并具备高性能的查询和展示能力。

提供完善的上下游监控数据

  • 为了实现一个系统级的、全面的可观测性,单一实体监控是不够的,需要整合不同维度的监控数据并构建全链路观测,确保监控系统能够反映出整个应用和服务生态的健康和性能。

  • 涵盖从底层硬件到应用层再到外部服务(例如RDMA网络、OSS存储、Redis等)的综合监控策略,不仅包括对主机和网络的监控,还包括对依赖服务的监控。

进程级监控

  • 进程级监控可以对操作系统运行的进程进行跟踪和分析,以了解进程的性能和资源利用情况。这是实现系统级监控的关键部分,旨在提供运行在服务器上的应用程序的健康和表现的透视图。

  • 进程级监控除了会捕获进程的CPU使用率、进程的内存使用量、进程的磁盘读写情况等关键性能指标,还会收集进程的启动时间、打开的文件的句柄数、进程下调起的线程数量等。提供接近于实时的监控能力,做到即时反馈,让系统管理员能够及时识别和解决问题。

  • 进程级监控为管理员提供更加丰富的故障诊断手段,帮助识别导致系统性能下降或故障的进程,例如可能是某些进程内存泄露、高CPU使用率或其他资源争用等。

默认提供Grafana专家级大盘

  • 默认集成经过阿里云专家经验沉淀的Grafana大盘,包括ECS Overview总览大盘、ECS Detail详细大盘、GPU Overview总览大盘、GPU Detail详细大盘、Node Process进程级大盘。

  • 真正做到一键接入主机可观测,开箱即用。

步骤一:接入主机监控数据

  1. 登录ARMS控制台

  2. 在左侧导航栏单击接入中心

  3. 接入中心页面,单击左侧基础设施,然后单击主机监控

    image

    说明
    • 由于Prometheus依赖阿里云资源中心获取云产品当前登录账户的VPC、ECS等数据进行服务发现,如果没有开通资源中心,接入流程会引导您先开通资源中心,具体操作请参见开通资源中心

    • 开通资源中心是异步操作,重新检测后如果仍然是未开通状态,可以等待10~20秒左右再单击重新检测

  4. 在弹出的页面中,选择目标ECS(VPC),然后按照下表说明填写配置信息

    image

    指标

    说明

    NodeExporter 安装方式

    • 自动安装(推荐):Prometheus会为用户选择的ECS默认安装node-exporter,您无需其他操作即可接入。

    • 自助安装:自行安装node-exporter。

    主机服务发现方式

    • 污点标签选择:黑名单机制。标签匹配到的实例将不会接入Prometheus,没有匹配到的ECS监控指标将会接入Prometheus,默认不会采集容器监控服务的节点。

    • 无条件:安装和采集当前VPC内所有ECS主机监控指标。

    • 标签选择:白名单机制。标签匹配到的实例将会接入Prometheus,没有匹配到的ECS实例将不会接入Prometheus。

    • IP域选择:该方式是提供一个网段,当ECS的IP地址匹配该网段时,即被选中。如果填写VPC对应的网段,即代表命中当前VPC全部ECS。

    • 实例ID:指定需要接入的实例ID,多个实例ID使用英文逗号分隔。

    ECS 污点标签

    每一个污点标签由key和value组成,可以设置多个污点标签。

    采集 TextFile

    采集指定文件中的Prometheus指标。

    采集进程状态指标

    默认会采集主机上的进程监控数据。

    Node-Exporter 服务端口

    默认端口9100。

    Metric 采集间隔(单位/秒)

    采集数据的时间间隔,默认为15秒。

    自动配置安全组

    默认打开。

  5. 单击确定,等待1~2分钟即可完成ECS主机监控指标接入。

说明

接入成功后,如果监控大盘没有数据,需要确认ECS的安全组在入方向需要允许100.64.0.0/10和192.168.0.0/18网段对9100和9256的访问权限,查看ECS的安全组详情,请参见查询安全组。9100是node-exporter的默认端口,9256是process-exporter的默认端口,具体端口需要根据您自身配置进行调整。

步骤二:查看监控大盘

  1. 登录ARMS控制台

  2. 在左侧导航栏单击接入管理

  3. 接入管理页面的已接入环境页签中,选择ECS环境

  4. ECS环境列表中,单击目标环境名称进入ECS环境详情页面。

  5. 组件管理页签,单击组件类型区域的大盘,即可查看内置的Grafana大盘。

步骤三:配置告警

  1. 登录ARMS控制台

  2. 在左侧导航栏单击接入管理

  3. 接入管理页面的已接入环境页签中,选择ECS环境

  4. ECS环境列表中,单击目标环境名称进入ECS环境详情页面。

  5. 组件管理页签,单击组件类型区域的告警规则,即可查看内置的告警规则。

说明
  • 内置的告警规则会产生告警事件,但不会进行告警通知。如果您希望将告警通知发送到邮件或其他平台,可以单击编辑配置通知方式。在告警配置页面您也可以自定义告警阈值、持续时间、告警内容等,具体操作,请参见Prometheus告警规则

  • 在极简模式下,您可以设置告警的通知对象、通知时段和重复策略。

image

Grafana大盘图例

ECS Overview大盘

image.png

ECS Detail大盘

image.png

Node Process进程大盘

image.png

GPU Overview大盘

image.png

GPU Detail大盘

image.png