可观测监控 Prometheus 版支持通过node-exporter采集ECS Linux或Windows主机操作系统相关指标,也支持process-exporter采集进程相关监控数据,另外基于textfile的方式也支持采集用户写到文件中自定义监控指标。开箱即用且全面的 ECS 观测大盘和告警规则,基于云监控无代理指标、开源Exporter代理指标、主机审计日志、主机事件等数据。
前提条件
主机监控优势
阿里云Prometheus主机监控针对阿里云ECS服务器提供了一个高效且易于管理的监控方案,这一方案的特点是顺应了现代云计算环境中对于可观测性和自动化管理的需求。
阿里云Prometheus提供的主机监控,具备阿里云ECS服务器、自建IDC内服务器、云厂商服务器全类型主机接入能力。针对阿里云ECS服务器可根据配置自动安装各类开源Exporter,各类Exporter采集配置自动生成。托管Prometheus Agent实现自动采集,采集数据统一存储、统一展示、统一告警。非阿里云主机不具备自动服务发现的能力,所以需要依赖用户在接入时手动安装阿里云采集探针,主动将监控数据上报到阿里云Prometheus存储。

| 优势 | 说明 | 
| 主机秒级发现 | 
 | 
| 探针秒级安装 | 
 | 
| 指标秒级采集 | 
 主机从创建到纳入监控系统,整体可以在30 ~ 60s以内完成。主机所有指标数据可以支持1 ~ 60s时间间隔的灵活调整。整体实现主机全方位秒级监控能力。 | 
| 探针Serverless化 | 
 | 
| 智能指标标签 | 
 | 
| 超大规模数据采集与存储 | 
 | 
| 提供完善的上下游监控数据 | 
 | 
| 进程级监控 | 
 | 
| 默认提供Grafana专家级大盘 | 
 | 
步骤一:接入阿里云服务器 ECS
- 登录云监控2.0控制台,选择目标工作空间,在左侧导航栏单击接入中心。 
- 在接入中心页面,单击阿里云服务器 ECS,参考下表完成配置,然后单击确定。 - 配置项 - 说明 - 区域 - 当前Workspace的区域,不支持修改。 - 策略名称 - 默认:系统自动生成的策略名称。 
- 自定义:单击自定义,您也可以自定义策略名称。 
 - 范围 - 全部实体:批量接入当前区域下的所有实体,包括现有的和未来新增的实体。 
- 按资源组:批量接入该资源组中的所有实体。 
- 按标签:通过标签筛选需要接入的实体。 
- 手动选择:手动选择需要接入的实体。 
 说明- 由于Prometheus依赖阿里云资源中心获取云产品当前登录账户的VPC、ECS等数据进行服务发现,如果没有开通资源中心,接入流程会引导您先开通资源中心,具体操作请参见开通资源中心。 
- 开通资源中心是异步操作,重新检测后如果仍然是未开通状态,可以等待10~20秒左右再单击重新检测。 
 
- 参考下表进行接入配置,然后单击确定。 - 阿里云 ECS 监控  - 配置项 - 说明 - 标签键(Tag Key) - 指定ECS标签的Key( - o11y.aliyun.dev/*的标签key会默认自动提取),会自动将标签的键值对注入到Prometheus指标中。- 采集云服务指标 - 启用后将采集云监控的 ECS 指标(无代理指标)。 - 采集节点指标(Linux) - 针对 Linux 主机安装 Node-exporter 采集节点指标(代理指标)。 - Node-Exporter 服务端口 - Node-Exporter 的服务端口。 - 采集 TextFile - 采集指定文件中的Prometheus指标。 - 采集进程指标(Linux) - 针对 Linux 主机安装 Process-exporter 采集进程指标(代理指标)。 - Process-Exporter 服务端口 - Process-Exporter 的服务端口。 - 采集 Windows 指标(Windows) - 针对 Windows 主机安装 Windows-exporter 采集节点指标(代理指标)。 - Windows 服务端口 - Windows 的服务端口。 - 自动配置安全组 - 为了确保接入成功,针对目标 ECS 主机会进行安全组检查。开启该功能后,如果检查不通过会自动添加安全组规则。 - Metric 采集间隔(单位/秒) - 采集数据的时间间隔,默认为15秒。 
- 阿里云 ECS 审计日志  - 配置项 - 说明 - 开启采集系统日志 - 是否采集主机系统日志。 - 系统日志LogStore名称 - Project默认自动创建,名称为:workspace-<WorkspaceName>-<RegionId>。 - 数据保存时间 - 数据的保存时间,单位为天。取值范围为1~3650。如果配置为3650,表示永久保存。当日志保存时间达到您所设置的保存时间后,日志将被删除。 - Shard数量 - 每个Shard支持5 MB/s的数据写入和10 MB/s的数据读取,当数据流量超过Shard服务能力时,建议您分裂Shard,当数据流量达不到Shard的最大读写能力时,建议您合并Shard以节省费用。 
- 阿里云 ECS 事件  - 配置项 - 说明 - 开启ECS系统事件 - 开启ECS系统事件后,在ECS洞察页面可以看到ECS的系统事件,否则数据为空。 
 说明- 接入成功后,如果监控大盘没有数据,需要确认ECS的安全组在入方向需要允许100.64.0.0/10和192.168.0.0/18网段对9100和9256的访问权限,查看ECS的安全组详情,请参见查询安全组。9100是node-exporter的默认端口,9256是process-exporter的默认端口,具体端口需要根据您自身配置进行调整。 
步骤二:查看监控大盘
- 登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择。 
- 单击目标实例,然后在打开页面的左侧单击大盘列表,即可查看大盘列表。 