附录:健康状态支持产品及说明
本文介绍云服务诊断健康状态已支持的产品及详细说明,如需更多帮助请查看云服务诊断目录下其他帮助文档。欢迎加入钉钉交流群(群号:86570007290)与产品团队分享您的问题和观点。
健康状态已支持的产品及详情如下表,更多产品及资源的健康状态将陆续上线,敬请期待。
分类 | 产品名称 | 缩写 | 资源类型 | 不可用定义 | 不可用判断标准 | 周期 |
计算 | 云服务器 ECS | ECS | 实例 | 某时段内ECS实例受到底层宿主机、存储、网络等限制,导致性能受到影响或降级,或遭到OOM出现蓝屏、夯住(Hang)等问题,视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障 | ECS对实例状态进行监测,并上报至云监控系统事件。 Product: ecs; 事件名称:Instance:HealthStatusChange,当healthStatus变更为 Impaired时为不可用 | 状态变化时记录一次 |
函数计算 | FC | 服务 | 某时段内FC服务请求错误率(HTTP状态码为500的请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | FC对服务请求进行监测,并上报至云监控时序指标。 Namespace: acs_fc; 失败请求:ServiceServerErrors; 错误率:ServiceServerErrorsRate; ServiceServerErrorsRate > 10%为不可用。但每分钟ServiceServerErrors < 10时不计算错误率,默认为正常 | 每10分钟记录一次(固定间隔) | |
容器 | 容器服务 Kubernetes 版 | ACK | 集群 | 某时段内客户所有试图与指定的 ACK Pro 集群 Kubernetes API 服务建立连接并使用服务的连续尝试均失败,则视为该时段内该 ACK Pro 集群服务不可用,标记异常。若未及时恢复,可提交工单上报故障(注意:ACK控制台集群状态的“不可用”指因集群API Server的CLB实例被释放导致的集群无法正常使用,与健康状态含义不同。因此可能出现健康状态正常但ACK控制台集群状态为不可用的情况) | ACK对集群状态进行监测,并记录日志。 Project:meta-cluster-sla-cn-beijing等(每个可用区独立);sli_level=unavailable为不可用,start_timestamp - end_timestamp为不可用时段 | 每10分钟记录一次(任意间隔) |
存储 | 对象存储 | OSS | Bucket | 某时段内OSS HTTP请求错误率(状态码为5XX的失败请求/全部请求)>10%则视为该时段内该OSS服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | OSS对HTTP请求进行监测和计算,并上报至云监控时序指标。Namespace:acs_oss_dashboard; 可用性:Availability; Availability<90%时为不可用 | 每10分钟记录一次(固定间隔) |
块存储 | EBS | 磁盘 | 某时段内EBS无法进行读写或读写性能严重下降,则视为该时段内该EBS实例不可用,标记异常。若未及时恢复,可提交工单上报故障 | EBS对磁盘状态进行监测,并上报至云监控系统事件。 Product: ecs; 本地磁盘开始出现损坏告警:Disk:ErrorDetected:Executing; 磁盘性能开始受到严重影响:Disk:Stalled:Executing; 以上两个事件任意一个出现即为不可用 | 状态变化时记录一次 | |
文件存储 NAS | NAS | 文件系统 | 某时段内客户所有试图与指定的 NAS 单个文件系统实例建立连接的连续尝试均失败,则视为该时段内该 NAS 单个文件系统实例服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | NAS对文件系统实例状态进行监测,并记录日志。 Project:ali-aliyun-nas;Slilevel=unavailable为不可用,startTime - EndTime为不可用时段 | 每10分钟记录一次(任意间隔) | |
云备份 | Cloud Backup | 存储库 | 某时段内云备份的备份任务失败且失败原因为“备份仓库不可用”,或云备份的恢复任务失败且失败原因为“备份仓库不可用”时则视为该时段内云备份不可用,标记异常。若未及时恢复,可提交工单上报故障 | 云备份对备份仓库实例(存储库)状态进行监测,并记录日志。 Project:hbr;sli_level=unavailable为不可用,start_timestamp - end_timestamp为不可用时段 | 每10分钟记录一次(任意间隔) | |
日志服务 | SLS | 日志项目 | 日志服务服务器端接收到的请求,视为有效请求。由于日志服务原因造成的调用失败,则视为失败请求。某连续时段(10分钟及以上)错误率(失败请求/有效请求)>10%则视为该时段内该服务不可用,标记异常。若未及时恢复,可提交工单处理 | SLS对服务请求进行监测,并上报至云监控时序指标。 Namespace:acs_sls_dashboard; 失败请求:LogCodeQps指标中筛选5XX的数量; 有效请求:LogCodeQps总数量; 计算每10分钟时段的错误率(失败请求总量/有效请求总量)> 10%为不可用。有效请求总量 < 100时不计算错误率,默认为正常 | 每10分钟记录一次(固定间隔) | |
网络与CDN | CDN | CDN | 域名 | 某时段内CDN服务请求错误率(因CDN系统原因导致的域名返回的5XX的失败请求/全部请求)>10%则视为该时段内该CDN服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | CDN对服务请求进行监测,并上报至云监控时序指标。Namespace: acs_cdn; 错误率:code5xx; 全部请求:QPS*60;code5xx>10%为不可用,但每分钟全部请求(QPS*60)<40时不计算错误率,默认为正常 | 每10分钟记录一次(固定间隔) |
全站加速DCDN | DCDN | 域名 | 某时段内DCDN服务请求错误率(因DCDN系统原因导致的域名返回的5XX的失败请求/全部请求)>10%则视为该时段内该DCDN服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | DCDN对服务请求进行监测,并上报至云监控时序指标。Namespace: acs_dcdn; 错误率:code_ratio_5; 全部请求:dcdn_qps*60;code_ratio_5>10%为不可用,但每分钟全部请求(dcdn_qps*60)<40时不计算错误率,默认为正常 | 每10分钟记录一次(固定间隔) | |
弹性公网 IP | EIP | 实例 | 某时段内 EIP 实例出方向所有数据包都在阿里云出口网关设备丢弃时,则视为该时段内该 EIP 实例服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | EIP对实例状态进行监测,并记录日志。 Project:metric-eip-ops-cn-beijing等(每个可用区独立);sli_level=unavailable为不可用,begin_ts - end_ts为不可用时段 | 每10分钟记录一次(任意间隔) | |
云数据传输 | CDT | NA | 某时段内CDT提供的统一计费和出账功能异常则视为该时段内CDT服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 云数据传输属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-云数据传输 | 状态变化时记录一次 | |
负载均衡 | SLB | 实例 | 某时段内客户所有试图与指定的 SLB 实例中某个监听所建立连接的连续尝试均失败,则视为该时段内该 SLB 实例服务不可用,标记异常。可通过停止/启动实例尝试恢复,或提交工单上报故障 | SLB对实例状态进行监测,并记录日志。 Project:metric-slb-ops-cn-beijing等(每个可用区独立);sli_level=unavailable为不可用,begin_ts - end_ts为不可用时段 | 每10分钟记录一次(任意间隔) | |
NAT 网关 | NAT Gateway | 实例 | 某时段内NAT网关实例出方向所有数据包都被阿里云出口网关设备丢弃时,则视为该时段内该NAT网关实例服务不可用,标记异常。若未及时恢复,可提交工单处理 | NAT网关对实例状态进行监测,并上报至云监控系统事件。 Product: nis; NAT数据链路不可用:problem-nat-datapathUnavailable; 不可用超过10分钟会发送一次该事件,若持续不可用,会每隔10分钟发送一次该事件。当收不到该事件时表明已恢复正常 | 每10分钟记录一次(任意间隔) | |
安全 | 数字证书管理服务(原SSL证书) | SSL Certificate | NA | 某时段内客户签发证书验证时候试图链接/访问证书产品的对应的CRL/OCSP服务时连接尝试均失败,则视为该时段内该数字证书管理服务的CRL/OCSP服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 数字证书管理服务属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-数字证书管理服务(原SSL证书) | 状态变化时记录一次 |
Web应用防火墙 | WAF | 防护对象 | 某时段内WAF服务请求错误率(因WAF系统原因导致的域名返回状态码为5XX和4XX请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | Web应用防火墙属于全球服务,不区分地域。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-Web应用防火墙 | 状态变化时记录一次 | |
云安全中心 | Security Center | NA | 某时段内云安全中心服务请求错误率(因云安全中心系统原因导致的域名返回状态码为5XX的失败请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | 云安全中心对服务请求进行监测,并记录日志。 Project:sas-sla-pop-aliyun-cn-sh; 失败请求:error_count_5xx; 成功请求:success_count; 错误率= (error_count_5xx/(success_count+error_count_5xx))>10%为不可用 | 每10分钟记录一次(任意间隔) | |
内容安全 | Content Moderation | NA | 某时段内内容安全服务请求错误率(HTTP状态码为5XX的请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 内容安全属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-内容安全 | 状态变化时记录一次 | |
数据库 | 云数据库 RDS | RDS | 实例 | 某时段内客户所有试图与指定的RDS实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障 | RDS对实例状态进行监测,并上报至云监控系统事件。 Product: rds; 事件名称:Instance_Failure_Start,故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常 | 状态变化时记录一次 |
云数据库 MongoDB 版 | MongoDB | 实例 | 某时段内客户所有试图与指定的MongoDB实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例、组件或节点尝试恢复,或提交工单上报故障 | MongoDB对实例状态进行监测,并上报至云监控系统事件。 Product: mongodb; 事件名称:Instance_Failure_Start,故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常 | 状态变化时记录一次 | |
云原生数据库 PolarDB | PolarDB | 集群 | 某时段内客户所有试图与指定的PolarDB集群建立连接的连续尝试均失败,则视为该时段内该集群服务不可用,标记异常。可通过节点管理尝试恢复,或提交工单上报故障 | PolarDB对实例状态进行监测,并上报至云监控系统事件。 Product: polardb; 事件名称:Instance_Failure_Start,故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常 | 状态变化时记录一次 | |
云数据库 Redis 版 | Redis | 实例 | 某时段内客户所有试图与指定的Redis实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障 | Redis对实例状态进行监测,并上报至云监控系统事件。 Product: redis; 事件名称:Instance_Failure_Start,故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常 | 状态变化时记录一次 | |
云原生分布式数据库 PolarDB-X | PolarDB-X | 实例 | 某时段内客户所有试图与指定的PolarDB-X实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单处理。(注意:仅支持2.0实例,1.0实例建议升级到2.0,可参考PolarDB-X 1.0升级至PolarDB-X 2.0) | PolarDB-X对实例状态进行监测,并上报至云监控系统事件。 Product: drds; 事件名称:Instance_Failure_Start,故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常 | 状态变化时记录一次 | |
数据传输服务 | DTS | 实例 | 某时段内DTS实例的写入数据无法同步到目的端,且状态持续超过5分钟以上,则视为该时段内该实例服务不可用,标记异常。若未及时恢复,可提交工单处理 | DTS对实例状态进行监测,并上报至云监控时序指标。 Namespace:acs_dts; 同步任务实例不可用:SynchronizationLatency(同步任务延迟)超过5分钟且持续5分钟以上为不可用 订阅任务实例不可用:ChangeTrackingLatency(订阅任务延迟)超过5分钟且持续5分钟以上为不可用 迁移任务实例不可用:MigrationLatency(迁移任务延迟)超过5分钟且持续5分钟以上为不可用 | 每5分钟记录一次(固定间隔) | |
中间件 | API 网关 | API Gateway | 实例 | 某时段内API网关服务请求错误率(由于⽹关原因造成的API调⽤失败请求/全部请求)>10%则视为该时段内该实例不可用,标记异常。若未及时恢复,可提交工单上报故障 | API网关对服务请求进行监测和计算,并上报至云监控时序指标。Namespace:acs_apigateway_dashboard; 全部请求:request_count_instance; 失败请求:error_count_instance; 实例节点丢失比例:instance_lost; 1、instance_lost = 100%为不可用 2、(error_count_instance /request_count_instance)> 10%为不可用。但每10分钟request_count_instance < 100时不计算错误率,默认为正常 | 每10分钟记录一次(固定间隔) |
其他 | 视频直播 | LIVE | 域名 | 因视频直播故障导致(1)FLV-HTTP/RTMP:维持链接20秒未返回数据;(2)HLS:5XX类错误 的请求视为失败请求。某时段内错误率(失败请求/全部请求)>20%则视为该时段内该视频直播服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | LIVE对服务请求进行监测,并上报至云监控时序指标。Namespace: acs_videolive; 错误率:code5xx; 全部请求:QPS*60; code5xx>20%为不可用,但每分钟总请求(QPS*60)<100时不计算错误率,默认为正常 | 每10分钟记录一次(固定间隔) |
短信服务 | SMS | NA | 某时段内所有提交短信的有效号码结果均为明确失败(指短信(验证码、行业通知短信、推广短信)提交至有效号码终端导致的失败),则视为该时段内该短信服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 短信服务属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-短信服务 | 状态变化时记录一次 | |
语音服务 | VS | NA | 某时段内客户所有调用发起语音外呼API接口的尝试均失败,则视为该时段内该语音服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 语音服务属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-语音服务 | 状态变化时记录一次 | |
号码隐私保护 | PNP | NA | 某时段内客户所有调用发起号码隐私保护的绑定API接口尝试均失败,则视为该时段内该号码隐私保护服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 号码隐私保护属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-号码隐私保护 | 状态变化时记录一次 | |
邮件推送 | Direct Mail | NA | 某时段内因阿里云邮件推送系统原因导致客户所有有效请求(用户连接到阿里云邮件推送服务器并验证成功的请求)均发信失败,则视为该时段内该邮件推送服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 邮件推送属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-邮件推送 | 状态变化时记录一次 | |
阿里邮箱 | Alibaba Mail | NA | 某时段内客户通过 SMTP、POP、IMAP或Webmail中任意一种方式收发邮件一直失败,则视为该时段内该阿里邮箱服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 阿里邮箱属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-阿里邮箱 | 状态变化时记录一次 | |
云解析DNS | DNS | 域名 | 某时段内客户所有对云解析DNS服务器的域名查询均失败,则视为该时段内该云解析DNS实例服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 云解析DNS属于全球服务,不区分地域。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-云解析DNS | 状态变化时记录一次 |
状态变化时记录一次:由可用变为不可用记录一次,由不可用变为可用再记录一次。如12:00:02开始不可用,12:00:06恢复正常,则12:00:02-12:00:06会标记为异常。
每10分钟记录一次(固定间隔):00:00-09:59、10:00-19:59等固定10分钟间隔记录一次该时段计算的结果。如12:00:00-12:09:59计算为不可用则标记为异常,12:10:00-12:19:59计算为可用则标记为正常,系统不会计算12:01:00-12:10:59此类时段结果。
每10分钟记录一次(任意间隔):任意时刻开始不可用且不可用持续10分钟,则记录该10分钟为不可用。如12:00:02开始不可用且持续到12:12:05,则12:00:02-12:10:01标记为异常,而12:10:02-12:12:05不足10分钟标记为正常。