设置Prometheus监控
Serverless 应用引擎 SAE(Serverless App Engine)平台全面开放监控指标数据,默认集成阿里云Prometheus监控。您可以访问基础监控大盘、应用监控大盘、全局可观测大盘,并按需自定义监控图表。本文介绍Prometheus监控的具体指标,以及如何配置并观测Prometheus监控大盘。
基础监控大盘
该大盘展示的监控指标如下:
CPU使用率
系统平均负载
内存使用量
网络流入流出速率
网络数据包
磁盘使用量
磁盘IOPS
磁盘吞吐率
TCP连接数
下图为基础监控各项指标的默认布局,如果您需要自定义面板,可以选中目标区域,将其拖动至指定位置。更多信息,请参见基础监控大盘。
应用监控大盘
该大盘展示的监控指标如下:
API
Application
DB
Machine
更多信息,请参见应用监控大盘。
全局可观测大盘
SAE提供开箱即用的应用和任务的全局可观测大盘,便于您以全局视角及时发现当前问题,规避潜在风险,分析未来趋势。
创建Grafana工作区。具体操作,请参见创建Grafana工作区。
您可以在工作区管理页面,查看刚创建成功的目标工作区。
在工作区管理页面,单击目标工具区名称,然后在工作区信息页面的云服务集成区域,集成SAE各项数据源。
集成SAE数据源,该数据源包含SAE基础监控数据以及平台侧相关数据。
在云服务集成列表中,选择Prometheus云服务监控(旧),筛选集成对应地域的云产品SAE自监控数据源。
集成ARMS数据源,该数据源包含SAE应用监控数据。
在云服务集成列表中,选择ARMS应用监控服务,集成对应地域的数据源。
集成SLS数据源,该数据源包含SAE事件信息。
在云服务集成列表中,选择SLS日志服务,添加SLS数据源。
创建数据源时,所属项目选择
aliyun-product-data-{userId}-{regionId}
,logstore选择sae_event
。说明2023年04月28日前未部署过的应用,需重新部署后才会产生数据。
在Grafana中,导入大盘模板。
输入各项大盘模板的ID,导入大盘模板并添加步骤2的数据源。如下图所示,导入数据源成功后,即可查看Grafana大盘。具体操作,请参见添加并使用Prometheus数据源。
分类
大盘ID
导入数据源
查看监控指标
应用全局大盘
18555
任务全局大盘
18556
实例生命周期大盘
19098
发布单大盘
19099
内置Prometheus指标
在Prometheus云服务监控中的SAE数据源内置了诸多SAE平台相关指标,您可以根据自身需要使用这些指标来配置监控告警。
创建Grafana工作区。具体操作,请参见创建Grafana工作区。
您可以在工作区管理页面,查看刚创建成功的目标工作区。
在工作区管理页面,单击目标工具区名称,然后在工作区信息页面的云服务集成区域,集成SAE数据源。
集成SAE数据源,该数据源包含SAE基础监控数据以及平台侧相关数据。
在云服务集成列表中,选择Prometheus云服务监控(旧),筛选集成对应地域的云产品SAE自监控数据源。
内置Prometheus指标明细如下。
应用相关指标
指标名称 | 类型 | 说明 | 单位 | 维度 |
app_replicas_count | gauge | 应用目标实例数 | 个 | "appId", "appName", "namespace" |
app_available_replicas_count | gauge | 应用可用实例数 | 个 | "appId", "appName", "namespace" |
任务相关指标
指标名称 | 类型 | 说明 | 单位 | 维度 |
job_active_count | gauge | 任务正在运行数 | 个 | "appId", "appName", "jobId", "namespace" |
job_succeeded_count | gauge | 任务运行成功数 | 个 | "appId", "appName", "jobId", "namespace" |
job_failed_count | gauge | 任务运行失败数 | 个 | "appId", "appName", "jobId", "namespace" |
job_cost_time | gauge | 任务执行耗时 | s | "appId", "appName", "jobId", "namespace" |
实例相关指标
指标名称 | 类型 | 说明 | 单位 | 维度 |
instance_state | gauge | 实例运行状态,其中不同状态的数值映射如下:
| 无 | "appId", "appName", "namespace", "instanceId" |
发布单相关指标
指标名称 | 类型 | 说明 | 单位 | 维度 |
changeorder_count | counter | 变更执行总数 | 个 | "appId", "appName", "namespace", "regionId","changeorderType" |
changeorder_success | counter | 变更执行成功数 | 个 | "appId", "appName", "namespace", "regionId","changeorderType" |
changeorder_failed | counter | 变更执行失败数 | 个 | "appId", "appName", "namespace", "regionId","changeorderType" |
changeorder_time | histogram | 变更执行耗时 | ms | "appId", "appName", "namespace", "regionId","changeorderType" |
task_time | histogram | 变更步骤耗时 | ms | "appId", "appName", "namespace", "regionId", "taskType" |