监控与日志

健康状态监控

建议实时了解云资源的健康状态,方便在有任何异常的情况下,您能及时采取相应的处理。关于健康状态的详细信息,请参见阿里云健康状态首页

阿里云健康状态页面中,您可以实时查看阿里云每个地域下云服务的状态是否有异常,以及该服务异常状态的RSS订阅方式。

image..png

基础云监控

PAI已接入阿里云基础云监控服务供您免费使用,可实现对云资源和互联网应用的各项指标进行实时监控。支持对云产品资源的运行状态、云服务器ECS的资源使用状态、网站站点、业务故障等问题进行实时监控。

该功能需要您手动开启。相关操作,请参见云产品监控

一键开启指定云产品关键监控项

基础云监控支持对PAI的多个关键监控项开启一键报警,帮助您高效、快速地建立云产品的报警体系,并帮助使您全面了解阿里云资源的使用情况和业务运行状况。详细介绍,请参见开启一键报警

自定义监控项报警规则

您可通过自定义设置监控报表,快速收集自定义的监控指标数据。详细介绍,请参见管理自定义监控大盘中的监控图表

支持对监控项设置报警规则,报警通知方式包括电话、短信、邮件、钉钉机器人、阿里云App通知。

支持报警黑名单功能,对某个监控指标屏蔽报警通知。详细操作说明,请参见创建报警黑名单策略

云资源配置审计

PAI已接入阿里云配置审计(Cloud Config)供您免费试用,为您提供统一的云资源配置历史追踪、配置合规审计,帮助您实现对云上资源合规性的自主监控,确保您基础设施的持续合规性。

资源配置检测

配置审计可检测当前阿里云账号和所有RAM用户的操作记录,且默认每隔10分钟记录资源配置的变更。

开启等保2.0云上预检功能

配置审计解读等保2.0法规条例,并对应实现为云上资源配置的检测。您可以一键开启等保2.0云上预检功能,配置审计将持续为您监控资源的合规性。您还可以下载预检报告,呈递检测机构报备。

审计数据实时查询与分析

您可通过将云资源的配置变更历史和不合规事件数据投递到日志服务SLS的指定日志库中,实现通过日志服务SLS统一查询和分析日志数据。详细介绍,请参见设置投递数据到日志服务SLS

云资源操作审计

PAI已接入阿里云操作审计(ActionTrail),可为您提供统一的云资源操作日志管理,记录云账号下用户登录及资源访问操作,实现安全分析、入侵检测、资源变更追踪以及合规性审计。

操作审计可记录通过阿里云控制台、OpenAPI、开发者工具访问和使用云上产品和服务的日志数据。具体支持的云服务审计事件,请参见审计事件概览

操作审计默认为您追踪并记录最近90天的事件。如需保存更长时间的日志,则需要创建跟踪,将产生的时间记录到日志服务或对象存储OSS。详细操作,请参见创建跟踪

当您将事件投递到SLSOSS后,可以通过SLSOSS查询或分析事件。详细操作,请参见通过SLSOSS控制台查询事件

如果需要跟踪历史事件,请提交工单申请开启相关权限。

工作空间事件中心

PAI提供了工作空间维度的事件中心,您可以创建事件规则,以跟踪和监控DLC任务或工作流任务的状态,或者基于AI资产管理-模型版本准入状态变化触发下游事件。支持监控工作流任务、DLC任务、模型事件源,并通过钉钉、语音、邮件等进行通知。详情请参见:工作空间事件中心

Tensorboard分析任务

您可以在Designer中启动TensorBoard,并通过TensorBoard可视化界面更直观的查看模型训练结果分析报告。