设置Prometheus监控

更新时间: 2023-12-06 15:34:27

Serverless 应用引擎 SAE(Serverless App Engine)平台全面开放监控指标数据,默认集成阿里云Prometheus监控。您可以访问基础监控大盘、应用监控大盘、全局可观测大盘,并按需自定义监控图表。本文介绍Prometheus监控的具体指标,以及如何配置并观测Prometheus监控大盘。

基础监控大盘

该大盘展示的监控指标如下:

  • CPU使用率

  • 系统平均负载

  • 内存使用量

  • 网络流入流出速率

  • 网络数据包

  • 磁盘使用量

  • 磁盘IOPS

  • 磁盘吞吐率

  • TCP连接数

下图为基础监控各项指标的默认布局,如果您需要自定义面板,可以选中目标区域,将其拖动至指定位置。更多信息,请参见基础监控大盘

sc_prometheus_basic_monitoring

应用监控大盘

该大盘展示的监控指标如下:

  • APIsc_api_dashboard

  • Applicationsc_application_dashboard

  • DBsc_db_dashboard

  • Machinesc_machine_dashboard

更多信息,请参见应用监控大盘

全局可观测大盘

SAE提供开箱即用的应用和任务的全局可观测大盘,便于您以全局视角及时发现当前问题,规避潜在风险,分析未来趋势。

  1. 创建Grafana工作区。具体操作,请参见创建Grafana工作区

    您可以在工作区管理页面,查看刚创建成功的目标工作区。

  2. 工作区管理页面,单击目标工具区名称,然后在工作区信息页面的云服务集成区域,集成SAE各项数据源。

    • 集成SAE数据源,该数据源包含SAE基础监控数据以及平台侧相关数据。

      在云服务集成列表中,选择Prometheus云服务监控(旧),筛选集成对应地域的云产品SAE自监控数据源。sc_prometheus_for_cloud_services_old_in_cloud_service_integration

    • 集成ARMS数据源,该数据源包含SAE应用监控数据。

      在云服务集成列表中,选择ARMS应用监控服务,集成对应地域的数据源。sc_application_monitoring_service_in_cloud_service_integration

    • 集成SLS数据源,该数据源包含SAE事件信息。

      在云服务集成列表中,选择SLS日志服务,添加SLS数据源。sc_log_service_in_cloud_service_integration

      创建数据源时,所属项目选择aliyun-product-data-{userId}-{regionId}logstore选择sae_eventsc_create_log_service_data_source_in_cloud_service_integration

      说明

      2023年04月28日前未部署过的应用,需重新部署后才会产生数据。

  3. 在Grafana中,导入大盘模板。

    输入各项大盘模板的ID,导入大盘模板并添加步骤2的数据源。如下图所示,导入数据源成功后,即可查看Grafana大盘。具体操作,请参见添加并使用Prometheus数据源

    分类

    大盘ID

    导入数据源

    查看监控指标

    应用全局大盘

    18555

    sc_import_sae_application_dashboard_from_grafana

    sc_sae_application_overview_dashboard

    任务全局大盘

    18556

    sc_import_sae_job_dashboard_from_grafana

    sc_sae_job_overview_dashboard

    实例生命周期大盘

    19098

    sc_import_sae_instance_lifecycle_dashboard_from_grafana

    sc_sae_instance_lifecycle_dashboard

    发布单大盘

    19099

    sc_import_sae_changeorder_overview_dashboard_from_grafana

    sc_sae_changeorder_overview_dashboard

内置Prometheus指标

在Prometheus云服务监控中的SAE数据源内置了诸多SAE平台相关指标,您可以根据自身需要使用这些指标来配置监控告警。

  1. 创建Grafana工作区。具体操作,请参见创建Grafana工作区

    您可以在工作区管理页面,查看刚创建成功的目标工作区。

  2. 工作区管理页面,单击目标工具区名称,然后在工作区信息页面的云服务集成区域,集成SAE数据源。

    集成SAE数据源,该数据源包含SAE基础监控数据以及平台侧相关数据。

    在云服务集成列表中,选择Prometheus云服务监控(旧),筛选集成对应地域的云产品SAE自监控数据源。sc_prometheus_for_cloud_services_old_in_cloud_service_integration

内置Prometheus指标明细如下。

应用相关指标

指标名称

类型

说明

单位

维度

app_replicas_count

gauge

应用目标实例数

"appId", "appName", "namespace"

app_available_replicas_count

gauge

应用可用实例数

"appId", "appName", "namespace"

任务相关指标

指标名称

类型

说明

单位

维度

job_active_count

gauge

任务正在运行数

"appId", "appName", "jobId", "namespace"

job_succeeded_count

gauge

任务运行成功数

"appId", "appName", "jobId", "namespace"

job_failed_count

gauge

任务运行失败数

"appId", "appName", "jobId", "namespace"

job_cost_time

gauge

任务执行耗时

s

"appId", "appName", "jobId", "namespace"

实例相关指标

指标名称

类型

说明

单位

维度

instance_state

gauge

实例运行状态,其中不同状态的数值映射如下:

  • 0:Pending

  • 1:PodInitializing

  • 2:Init

  • 3:ContainerCreating

  • 4:Running

  • 5:Terminating

  • 6:ImagePullBackOff

  • 7:ErrImagePull

  • 8:CrashLoopBackOff

  • 9:Error

  • 10:ContainerStatusUnknown, NotFound

  • 11:Completed

  • 12:Failed

  • -1:其他状态

"appId", "appName", "namespace", "instanceId"

发布单相关指标

指标名称

类型

说明

单位

维度

changeorder_count

counter

变更执行总数

"appId", "appName", "namespace", "regionId","changeorderType"

changeorder_success

counter

变更执行成功数

"appId", "appName", "namespace", "regionId","changeorderType"

changeorder_failed

counter

变更执行失败数

"appId", "appName", "namespace", "regionId","changeorderType"

changeorder_time

histogram

变更执行耗时

ms

"appId", "appName", "namespace", "regionId","changeorderType"

task_time

histogram

变更步骤耗时

ms

"appId", "appName", "namespace", "regionId", "taskType"

阿里云首页 Serverless应用引擎 相关技术圈