通过服务监控报警功能,您可以监控服务运行情况。如果服务运行情况超过了配置的报警规则(条件),则发送报警通知。
背景信息
PAI-EAS支持对服务的以下项目进行监控报警。
监控项目 | 描述 |
---|---|
CPU消耗 | 服务当前消耗的CPU核数。 |
GPU利用率 | 服务当前GPU使用量占部署GPU总量的比重。 |
GPU显存 | 服务当前GPU显存使用量。 |
内存消耗 | 服务当前内存消耗,单位MB。 |
每秒总调用次数 | 服务每秒总调用次数。 |
状态码2xx每秒响应 | 状态码为2xx码的每秒响应。 |
状态码2xx响应占比 | 状态码为2xx码的响应占比。 |
状态码4xx每秒响应 | 状态码为4xx码的每秒响应。 |
状态码4xx响应占比 | 状态码为4xx码的响应占比。 |
状态码5xx每秒响应 | 状态码为5xx码的每秒响应。 |
状态码5xx响应占比 | 状态码为5xx码的响应占比。 |
TP5响应时间 | 前5%请求最大响应时间。 |
TP80响应时间 | 前80%请求最大响应时间。 |
TP90响应时间 | 前90%请求最大响应时间。 |
TP95响应时间 | 前95%请求最大响应时间。 |
TP99响应时间 | 前99%请求最大响应时间。 |
TP100响应时间 | 前100%请求最大响应时间。 |
入流量 | 每秒进入服务的数据量,单位KB。 |
出流量 | 每秒流出服务的数据量,单位KB。 |
步骤一:配置报警联系人
- 创建报警联系人。
- 创建报警联系组。
- 在报警联系人页面,单击报警联系组页签。
- 在报警联系组页签,单击新建联系组。
- 在新建联系组面板,输入组名,并选择已有联系人,其他参数使用默认配置。
- 单击确认。