DSW监控与报警

DSW实例支持查看和监控资源使用情况,提供CPU、内存、GPU等详细监控指标,并可通过云监控或ARMS实现报警配置与通知。当资源水位异常(如GPU使用率超阈值)时,系统将触发报警,帮助您实时掌握实例负载状态。

适用范围

监控功能当前支持预付费资源(通用计算资源和灵骏智算资源)创建的DSW实例,暂不支持公共资源创建的DSW实例。

监控方式概览

DSW提供了多种监控方式,您可以根据不同的需求和使用场景选择合适的方式:

监控方式

特点

适用场景

计费说明

使用DSW控制台查看监控页面

  • 操作便捷,与DSW控制台集成,无需额外配置。

  • 功能相对基础,不支持报警配置和历史数据查询。

适用于开发或调试过程中,对单个实例进行临时的、实时的资源状态查看。

免费使用

使用云监控配置监控和报警

  • 支持配置灵活的报警规则,可通过多种方式发送通知。

  • 支持通过API订阅指标数据,便于二次开发和系统集成。

适用于需要对DSW实例进行常态化、自动化监控和异常报警的生产环境。

云监控为独立计费云产品,会产生额外费用,计费详情请参见云监控计费说明

使用应用实时监控ARMS配置监控和告警

  • 专业的云原生可观测平台,提供丰富的可视化能力。

  • 内置Grafana大盘,提供开箱即用的监控视图。

  • 基于Prometheus提供更灵活、强大的告警配置能力。

适用于需要深度定制监控大盘、进行多维度数据钻取分析的场景,或希望将DSW监控统一纳入ARMS可观测体系的用户。

ARMS为独立计费云产品,会产生额外费用,计费详情请参见ARMS计费说明

使用DSW控制台查看监控页面

DSW实例列表页单击实例名称进入详情页,单击切换至监控页签。在此监控页面您可查看实例的CPU、内存、GPU等资源的状态信息。

image

使用云监控配置监控和报警

云监控(CloudMonitor)是一款针对阿里云资源和互联网应用进行监控的服务,为云上用户提供开箱即用的企业级一站式监控解决方案。您可以登录云监控控制台,查看DSW实例监控数据,并设置告警通知。云监控还支持通过API订阅指标数据,助您建立自己的监控系统和数据大盘。

查看监控数据

登录云监控控制台,在左侧导航栏单击云产品大盘,产品搜索并选择PAI-交互式建模(DSW),然后选择需要查询的工作空间和实例。

查询工作空间ID请参见管理工作空间。查询实例ID请参见控制台访问和管理DSW

image

配置监控报警

通过监控报警功能,您可以监控DSW实例的资源水位,并灵活地配置报警规则。

配置报警联系人

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警联系人

  3. 报警联系人页签,单击创建联系人,填写报警联系人的姓名、手机号码、邮箱或Webhook地址,并单击确认

  4. 报警联系组页签,单击新建联系人组填写报警联系人组的组名,并选择已有报警联系人,然后单击确认

配置报警规则

  1. 云监控控制台的左侧导航栏,单击云资源监控 > 云产品监控,然后在搜索栏中搜索并选择PAI-交互式建模(DSW)

  2. PAI-交互式建模(DSW)页面,选择服务所在的地域,并单击创建报警规则

    image

  3. 创建报警规则页面,配置如下关键参数,并单击确认。更多参数说明请参见创建报警规则

    参数

    描述

    产品

    选择PAI-交互式建模(DSW)

    资源范围

    报警规则的作用范围:

    • 全部资源:报警规则作用于DSW的全部资源上。

    • 应用分组:报警规则作用于DSW的指定应用分组内的全部资源上。

    • 实例:报警规则作用于DSW指定工作空间下的实例上。

    规则描述

    报警规则主体,当监控数据满足指定条件时,触发报警规则。规则描述的设置方法,请参见创建报警规则

    通道沉默周期

    报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。

    生效时间

    报警规则的生效时间。报警规则只在生效时间内才会检查监控数据是否需要报警。

    报警联系人组

    发送报警的联系人组,选择已绑定报警联系人的报警组。

  4. PAI-交互式建模(DSW)页面,单击查看报警规则,可以查看已创建的报警规则详情、报警历史等。

使用OpenAPI订阅监控指标

云监控提供完善的API服务,您可以通过调用API的方式,订阅DSW的监控指标及数据,搭建监控系统和数据大盘。具体操作步骤,请参见云产品监控API目录

云监控API

API概述

DescribeMetricLast

查询指定监控项的最新监控数据。

DescribeMetricList

查询指定云产品的指定监控项的监控数据。

DescribeMetricData

查询指定云产品的某个监控项的监控数据。

DescribeMetricMetaList

查询云监控开放的监控项详情。

DescribeProjectMeta

查询云监控支持的时序类监控项产品列表。

DescribeMetricTop

先查询指定云产品的指定监控项的最新监控数据,再查询该监控项排序后的监控数据。

DescribeMetricList接口为例,为您说明如何调用该API来查询产品DSW下指定指标的监控数据。

  1. 前往DSW指标列表页面。在指标列表页面,单击目标指标操作列下的获取指标数据,以CPU使用率CONTAINER_CPU_UTIL为例。image

  2. OpenAPI门户页面,配置以下关键参数,其他参数取默认配置。更多参数配置说明,请参见DescribeMetricList

    参数

    描述

    Namespace

    配置为acs_pai_dsw

    MetricName

    配置对应的监控指标。例如CONTAINER_CPU_UTIL

    StartTime

    开始时间。例如2025-11-05 00:00:00

    EndTime

    结束时间。例如2025-11-05 01:00:00

    说明

    StartTimeEndTime之间的间隔小于等于31天。

  3. 参数配置完成后,单击发起调用,即可查看相应时间的监控数据。

    image

使用ARMS配置监控和告警

应用实时监控服务ARMS(Application Real-Time Monitoring Service)是一款阿里云云原生可观测产品平台。基于ARMS提供的能力,您可以自定义一套DSWGrafana大盘,以及使用Prometheus配置灵活的告警规则,帮助您全面详细地监控DSW实例指标数据。

接入监控数据

具体操作步骤如下:

  1. 登录ARMS控制台,在左侧导航栏单击接入中心 > 人工智能,然后单击阿里云 PAI-交互式建模(DSW)image

  2. 在弹出面板的开始接入页签,选择数据存储地域并配置接入名称,然后单击确定

    大约需要等待1~2分钟,即可完成DSW的接入。您也可以切换到效果预览采集指标告警规则模板页签,分别查看指标监控大盘、支持采集的指标以及告警规则名称和模板详情。

  3. 接入完成后,在左侧导航栏单击接入管理 > 已接入组件,即可看到接入的阿里云 PAI-交互式建模(DSW)

查看Grafana大盘

  1. 登录ARMS控制台,在左侧导航栏单击接入管理 > 已接入组件 > 阿里云 PAI-交互式建模(DSW) > 大盘列表,然后单击大盘名称查看内置的Grafana大盘。

    image

  2. Grafana大盘页面您可以根据DSW实例的ID查询指定实例的状态。

    image

配置Prometheus告警

  1. 登录ARMS控制台,在左侧导航栏单击接入管理 > 已接入组件 > 阿里云 PAI-交互式建模(DSW) > 告警列表,即可查看内置的告警规则。

    image

  2. 内置的告警规则会产生告警事件,但是不会进行告警通知,您可以通过以下两种配置方法将告警通知发送到邮件或其他平台:

    • 通过编辑告警规则配置通知方式。单击告警规则操作列的编辑按钮,进入Prometheus告警规则配置页面,按需设置告警条件、告警内容以及告警通知等。有关告警详细配置的信息,请参见创建Prometheus告警规则

      image

    • 通过设置通知策略,制定针对告警事件的匹配规则。当匹配规则被触发时,系统会以您指定的通知方式向通知对象发送告警信息。具体操作,请参见通知策略