Serverless应用引擎SAE(Serverless App Engine)平台全面开放监控指标数据,默认集成阿里云Prometheus监控,为您提供基础监控大盘、应用监控大盘、全局可观测大盘,同时您可以结合自身诉求方便地构建自己的监控图表。本文介绍Prometheus监控的具体指标,以及如何配置并观测Prometheus监控大盘。

基础监控大盘

该大盘展示的监控指标如下:
  • CPU使用率
  • 系统平均负载
  • 内存使用量
  • 网络流入流出速率
  • 网络数据包
  • 磁盘使用量
  • 磁盘IOPS
  • 磁盘吞吐率
  • TCP连接数

下图为基础监控各项指标的默认布局,如果您需要自定义面板,可以选中目标区域,将其拖动至指定位置。更多信息,请参见基础监控大盘

sc_prometheus_basic_monitoring

应用监控大盘

该大盘展示的监控指标如下:

  • APIsc_api_dashboard
  • Applicationsc_application_dashboard
  • DBsc_db_dashboard
  • Machinesc_machine_dashboard

更多信息,请参见应用监控大盘

全局可观测大盘

SAE提供开箱即用的应用和任务的全局可观测大盘,便于您以全局视角及时发现当前问题,规避潜在风险,分析未来趋势。

  1. 创建Grafana工作区。具体操作,请参见创建Grafana工作区
    您可以在工作区管理页面,查看刚创建成功的目标工作区。
  2. 工作区管理页面,单击目标工具区名称,然后在工作区信息页面的云服务集成区域,集成SAE各项数据源。
    • 集成SAE数据源,该数据源包含SAE基础监控数据以及平台侧相关数据。
      在云服务集成列表中,选择Prometheus云服务监控(旧),筛选集成对应地域的云产品SAE自监控数据源。sc_prometheus_for_cloud_services_old_in_cloud_service_integration
    • 集成ARMS数据源,该数据源包含SAE应用监控数据。
      在云服务集成列表中,选择ARMS应用监控服务,集成对应地域的数据源。sc_application_monitoring_service_in_cloud_service_integration
    • 集成SLS数据源,该数据源包含SAE事件信息。
      在云服务集成列表中,选择SLS日志服务,添加SLS数据源。sc_log_service_in_cloud_service_integration
      创建数据源时,所属项目选择aliyun-product-data-{userId}-{regionId}logstore选择sae_eventsc_create_log_service_data_source_in_cloud_service_integration
      说明 2023年04月28日前未部署过的应用,需重新部署后才会产生数据。
  3. 在Grafana中,导入大盘模板。
    输入各项大盘模板的ID,导入大盘模板并添加步骤2的数据源。如下图所示,导入数据源成功后,即可查看Grafana大盘。具体操作,请参见添加并使用Prometheus数据源
    分类大盘ID导入数据源查看监控指标
    应用全局大盘18555sc_import_sae_application_dashboard_from_grafanasc_sae_application_overview_dashboard
    任务全局大盘18556sc_import_sae_job_dashboard_from_grafanasc_sae_job_overview_dashboard
    实例生命周期大盘19098sc_import_sae_instance_lifecycle_dashboard_from_grafanasc_sae_instance_lifecycle_dashboard
    发布单大盘19099sc_import_sae_changeorder_overview_dashboard_from_grafanasc_sae_changeorder_overview_dashboard

内置Prometheus指标

在Prometheus云服务监控中的SAE数据源内置了诸多SAE平台相关指标,您可以根据自身需要使用这些指标来配置监控告警。

  1. 创建Grafana工作区。具体操作,请参见创建Grafana工作区
    您可以在工作区管理页面,查看刚创建成功的目标工作区。
  2. 工作区管理页面,单击目标工具区名称,然后在工作区信息页面的云服务集成区域,集成SAE数据源。
    集成SAE数据源,该数据源包含SAE基础监控数据以及平台侧相关数据。
    在云服务集成列表中,选择Prometheus云服务监控(旧),筛选集成对应地域的云产品SAE自监控数据源。sc_prometheus_for_cloud_services_old_in_cloud_service_integration

内置Prometheus指标明细如下。

应用相关指标

指标名称类型说明单位维度
app_replicas_countgauge应用目标实例数"appId", "appName", "namespace"
app_available_replicas_countgauge应用可用实例数"appId", "appName", "namespace"

任务相关指标

指标名称类型说明单位维度
job_active_countgauge任务正在运行数"appId", "appName", "jobId", "namespace"
job_succeeded_countgauge任务运行成功数"appId", "appName", "jobId", "namespace"
job_failed_countgauge任务运行失败数"appId", "appName", "jobId", "namespace"
job_cost_timegauge任务执行耗时s"appId", "appName", "jobId", "namespace"

实例相关指标

指标名称类型说明单位维度
instance_stategauge实例运行状态,其中不同状态的数值映射如下:
  • 0:Pending
  • 1:PodInitializing
  • 2:Init
  • 3:ContainerCreating
  • 4:Running
  • 5:Terminating
  • 6:ImagePullBackOff
  • 7:ErrImagePull
  • 8:CrashLoopBackOff
  • 9:Error
  • 10:ContainerStatusUnknown, NotFound
  • 11:Completed
  • 12:Failed
  • -1:其他状态
"appId", "appName", "namespace", "instanceId"

发布单相关指标

指标名称类型说明单位维度
changeorder_countcounter变更执行总数"appId", "appName", "namespace", "regionId","changeorderType"
changeorder_successcounter变更执行成功数"appId", "appName", "namespace", "regionId","changeorderType"
changeorder_failedcounter变更执行失败数"appId", "appName", "namespace", "regionId","changeorderType"
changeorder_timehistogram变更执行耗时ms"appId", "appName", "namespace", "regionId","changeorderType"
task_timehistogram变更步骤耗时ms"appId", "appName", "namespace", "regionId", "taskType"