使用ARMS自定义可观测大盘及报警

应用实时监控服务ARMS(Application Real-Time Monitoring Service)是一款阿里云云原生可观测产品平台。基于ARMS提供的能力,你可以自定义一套PAI-EAS服务的可观测大盘,以及配置更加灵活的报警规则,帮助您全面详细的监控EAS指标数据。本文将向您介绍如何使用ARMS查看监控指标数据、配置可观测可视化大盘以及自定义监控报警等。

计费说明

使用ARMS服务会产生一定的费用,详细的计费说明,请参见ARMS计费说明

接入EAS监控指标数据

  1. 登录ARMS控制台,在左侧导航栏,单击接入中心

  2. 接入中心页面,单击左侧人工智能页签,然后单击阿里云 PAI EAS在线预测服务image

  3. 在弹出面板的开始接入页签,选择数据存储地域并配置接入名称,然后单击确定

    大约需要等待1~2分钟,即可完成服务的接入。

  4. 安装完成后,您可以单击接入管理,查看已接入环境的详细信息。

查看接入的EAS指标数据

  1. 在左侧导航栏,单击接入管理,然后在已接入组件页签,单击阿里云 PAI EAS 在线预测服务卡片。

    在弹出的面板中,您可以查看已接入的环境列表。image

  2. 单击目标环境操作列下的查看详情,然后切换到指标探索页签。在该页面,您可以查看EAS服务所有的指标详情。

    查看方式

    描述

    通过过滤指标查看指标详情

    指标名称会增加AliyunLearn_eas前缀,与云监控上展示的EAS指标定义一致,且标签信息更加丰富。关于指标的定义详情,请参见PAI-EAS在线预测服务指标列表image

    借助PromQL组合,查询更加丰富的指标。

    例如查询当前所有服务的QPS之和。如下图所示,切换到Code,输入sum(AliyunLearn_eas_eas_qps_total),然后单击Run query,便会展示出最近一段时间内,您在当前区域部署的所有EAS服务的QPS之和的变化趋势。关于PromQL的更多语法信息介绍,请参见时序数据查询和分析简介。您也可以单击输入框后的AI助手按钮image来学习PromQL语法信息。image

自定义可观测可视化大盘

  1. 查看Grafana大盘详情。

    ARMS可观测可视化大盘使用Grafana实现,且自带了一个默认的Grafana大盘。您可以按照以下操作步骤,查看大盘详情。

    1. 进入云服务环境详情页面。具体操作,请参见步骤二:查看监控大盘

    2. 组件管理页签的组件类型区域,选择阿里云PAI EAS在线预测服务,并单击右侧的大盘以及大盘名称,来查看内置的Grafana大盘。image

  2. 为默认的Grafana大盘增加一个全局QPS面板。image

    1. 在大盘详情页面单击右上角的Add panel按钮image,然后在新增的Add panel面板中,单击Add a new panel

    2. Edit Panel页面右侧,将图表类型切换为Stat

    3. 在页面左下角,将Data source切换为${datasource},然后在Metrics browser文本框中输入PromQL查询语句sum(AliyunLearn_eas_eas_qps_total) 后,单击Run queries

    4. 通过调整threshold,为不同的阈值配置不同的展示颜色。配置完成后,页面会预览图表效果,通过单击Apply按钮保存设置。

关于Grafana的更多介绍,请参见可观测可视化 Grafana 版

自定义监控报警

ARMS提供了完整的报警能力,参照步骤二:查看监控大盘进入云服务环境详情页面,在告警规则页签,您可以查看ARMS预置的默认告警规则模板。image

如果上述默认模板无法满足您的需求,您可以按照以下操作步骤配置自定义告警规则。

  1. 登录ARMS控制台,在左侧导航栏,选择Prometheus监控 > Prometheus告警规则,然后单击创建Prometheus告警规则

  2. 创建Prometheus告警规则页面,配置以下关键参数,更多参数配置说明,请参见Prometheus告警规则

    参数

    描述

    检测类型

    选择自定义PromQL

    自定义PromQL语句

    输入sum(AliyunLearn_eas_eas_qps_total) > 20

    告警内容

    用户收到的告警信息。

    告警通知

    设置告警通知对象。

  3. 单击完成

    您可以在Prometheus告警规则页面查看已创建的告警规则。当所有服务的全局QPS之和大于20时,您配置的通知对象便能收到告警。