主机可观测

可观测监控 Prometheus 版支持通过node-exporter采集ECS LinuxWindows主机操作系统相关指标,也支持process-exporter采集进程相关监控数据,另外基于textfile的方式也支持采集用户写到文件中自定义监控指标。开箱即用且全面的 ECS 观测大盘和告警规则,基于云监控无代理指标、开源Exporter代理指标、主机审计日志、主机事件等数据。

前提条件

主机监控优势

阿里云Prometheus主机监控针对阿里云ECS服务器提供了一个高效且易于管理的监控方案,这一方案的特点是顺应了现代云计算环境中对于可观测性和自动化管理的需求。

阿里云Prometheus提供的主机监控,具备阿里云ECS服务器、自建IDC内服务器、云厂商服务器全类型主机接入能力。针对阿里云ECS服务器可根据配置自动安装各类开源Exporter,各类Exporter采集配置自动生成。托管Prometheus Agent实现自动采集,采集数据统一存储、统一展示、统一告警。非阿里云主机不具备自动服务发现的能力,所以需要依赖用户在接入时手动安装阿里云采集探针,主动将监控数据上报到阿里云Prometheus存储。

image

优势

说明

主机秒级发现

  • 适应性:自动服务发现机制允许监控系统快速适应云资源的动态变化,确保所有运行中的实例都被及时监控。

  • 多样性:支持多种服务发现类型,满足不同场景下的监控需求,例如支持Kubernetes集群内服务的自动发现,以及其他类型云服务的集成。

探针秒级安装

  • 即插即用:自动化安装Exporter,使得新启动的计算节点可以立即被监控系统识别并收集其度量,无需人为干预。

  • 全面监控:提供多种Exporter,包括Node-exporter、Process-exporter、GPU-exporter和中间件Exporter,进行全方位的性能追踪。

指标秒级采集

  • 配置简化:自动化配置生成减轻了运维人员手动配置的负担,确保所有节点和服务的指标都能被准确无误地采集。

  • 灵活性:配置可根据现有的监控需求作出相应调整,带来灵活性和可扩展性,应对复杂多变的监控环境。

主机从创建到纳入监控系统,整体可以在30 ~ 60s以内完成。主机所有指标数据可以支持1 ~ 60s时间间隔的灵活调整。整体实现主机全方位秒级监控能力。

探针Serverless

  • 集中管理:通过托管的Prometheus Agent统一管理数据采集,简化监控架构,提高运维效率,且用户对数据采集链路无感知。

  • 高效能:因为抽象了监控算法的复杂性,使用Agent可以减少误配的可能性,提高监控数据的准确性和时效性。

智能指标标签

  • 自动摘取阿里云ECS主机的标签、资源组、区域等信息,并自动注入到整个指标体系中,方便快捷。

  • 可自定义添加额外标签,进一步提升标签体系的灵活性,例如自定义业务标识、环境标识、数据来源标识等。

超大规模数据采集与存储

  • 支持超大规模主机接入,采用独享与共享并存托管模式,依据主机接入规模动态调整托管资源,保证接入的时效性和准确性。

  • 存储可支持超大规模指标存储,并具备高性能的查询和展示能力。

提供完善的上下游监控数据

  • 为了实现一个系统级的、全面的可观测性,单一实体监控是不够的,需要整合不同维度的监控数据并构建全链路观测,确保监控系统能够反映出整个应用和服务生态的健康和性能。

  • 涵盖从底层硬件到应用层再到外部服务(例如RDMA网络、OSS存储、Redis等)的综合监控策略,不仅包括对主机和网络的监控,还包括对依赖服务的监控。

进程级监控

  • 进程级监控可以对操作系统运行的进程进行跟踪和分析,以了解进程的性能和资源利用情况。这是实现系统级监控的关键部分,旨在提供运行在服务器上的应用程序的健康和表现的透视图。

  • 进程级监控除了会捕获进程的CPU使用率、进程的内存使用量、进程的磁盘读写情况等关键性能指标,还会收集进程的启动时间、打开的文件的句柄数、进程下调起的线程数量等。提供接近于实时的监控能力,做到即时反馈,让系统管理员能够及时识别和解决问题。

  • 进程级监控为管理员提供更加丰富的故障诊断手段,帮助识别导致系统性能下降或故障的进程,例如可能是某些进程内存泄露、高CPU使用率或其他资源争用等。

默认提供Grafana专家级大盘

  • 默认集成经过阿里云专家经验沉淀的Grafana大盘,包括ECS Overview总览大盘、ECS Detail详细大盘、GPU Overview总览大盘、GPU Detail详细大盘、Node Process进程级大盘。

  • 真正做到一键接入主机可观测,开箱即用。

步骤一:接入阿里云服务器 ECS

  1. 登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择接入中心 > 接入中心

  2. 在接入中心页面,单击阿里云服务器 ECS,参考下表完成配置,然后单击确定

    配置项

    说明

    区域

    当前Workspace的区域,不支持修改。

    策略名称

    • 默认:系统自动生成的策略名称。

    • 自定义:单击自定义,您也可以自定义策略名称。

    范围

    • 全部实体:批量接入当前区域下的所有实体,包括现有的和未来新增的实体。

    • 按资源组:批量接入该资源组中的所有实体。

    • 按标签:通过标签筛选需要接入的实体。

    • 手动选择:手动选择需要接入的实体。

    说明
    • 由于Prometheus依赖阿里云资源中心获取云产品当前登录账户的VPC、ECS等数据进行服务发现,如果没有开通资源中心,接入流程会引导您先开通资源中心,具体操作请参见开通资源中心

    • 开通资源中心是异步操作,重新检测后如果仍然是未开通状态,可以等待10~20秒左右再单击重新检测

  3. 参考下表进行接入配置,然后单击确定

    • 阿里云 ECS 监控

      image

      配置项

      说明

      标签键(Tag Key)

      指定ECS标签的Key(o11y.aliyun.dev/*的标签key会默认自动提取),会自动将标签的键值对注入到Prometheus指标中。

      采集云服务指标

      启用后将采集云监控的 ECS 指标(无代理指标)。

      采集节点指标(Linux)

      针对 Linux 主机安装 Node-exporter 采集节点指标(代理指标)。

      Node-Exporter 服务端口

      Node-Exporter 的服务端口。

      采集 TextFile

      采集指定文件中的Prometheus指标。

      采集进程指标(Linux)

      针对 Linux 主机安装 Process-exporter 采集进程指标(代理指标)。

      Process-Exporter 服务端口

      Process-Exporter 的服务端口。

      采集 Windows 指标(Windows)

      针对 Windows 主机安装 Windows-exporter 采集节点指标(代理指标)。

      Windows 服务端口

      Windows 的服务端口。

      自动配置安全组

      为了确保接入成功,针对目标 ECS 主机会进行安全组检查。开启该功能后,如果检查不通过会自动添加安全组规则。

      Metric 采集间隔(单位/秒)

      采集数据的时间间隔,默认为15秒。

    • 阿里云 ECS 审计日志

      image

      配置项

      说明

      开启采集系统日志

      是否采集主机系统日志。

      系统日志LogStore名称

      Project默认自动创建,名称为:workspace-<WorkspaceName>-<RegionId>。

      数据保存时间

      数据的保存时间,单位为天。取值范围为1~3650。如果配置为3650,表示永久保存。当日志保存时间达到您所设置的保存时间后,日志将被删除。

      Shard数量

      每个Shard支持5 MB/s的数据写入和10 MB/s的数据读取,当数据流量超过Shard服务能力时,建议您分裂Shard,当数据流量达不到Shard的最大读写能力时,建议您合并Shard以节省费用。

    • 阿里云 ECS 事件

      image

      配置项

      说明

      开启ECS系统事件

      开启ECS系统事件后,在ECS洞察页面可以看到ECS的系统事件,否则数据为空。

    说明

    接入成功后,如果监控大盘没有数据,需要确认ECS的安全组在入方向需要允许100.64.0.0/10192.168.0.0/18网段对91009256的访问权限,查看ECS的安全组详情,请参见查询安全组。9100node-exporter的默认端口,9256process-exporter的默认端口,具体端口需要根据您自身配置进行调整。

步骤二:查看监控大盘

  1. 登录云监控2.0控制台,单击目标工作空间,在左侧导航栏单击应用中心,然后单击Prometheus服务

  2. 单击目标实例,然后在打开页面的左侧单击大盘列表,即可查看大盘列表。image