健康状态监测覆盖范围与判断标准-云服务诊断-阿里云

本文介绍云服务诊断健康状态已支持的产品及详细说明，如需更多帮助请查看云服务诊断目录下其他帮助文档。欢迎加入钉钉交流群（群号：86570007290）与产品团队分享您的问题和观点。

健康状态已支持的产品及详情如下表，更多产品及资源的健康状态将陆续上线，敬请期待。

分类	产品名称	缩写	资源类型	不可用定义	不可用判断标准	周期
计算（2款）	云服务器 ECS	ECS	实例	某时段内ECS实例受到底层宿主机、存储、网络等限制，导致性能受到影响或降级，或遭到OOM出现蓝屏、夯住（Hang）等问题，视为该时段内该实例服务不可用，标记异常。可通过重启实例尝试恢复，或提交工单上报故障	ECS对实例状态进行监测，并上报至云监控系统事件。 Product: ecs；事件名称：Instance:HealthStatusChange，当healthStatus变更为 Impaired时为不可用	状态变化时记录一次
计算（2款）	函数计算	FC	服务	某时段内FC服务请求错误率（HTTP状态码为500的请求/全部请求）>10%则视为该时段内该服务不可用，标记异常。若未及时恢复，可提交工单上报故障	FC对服务请求进行监测，并上报至云监控时序指标。 Namespace: acs_fc；失败请求：ServiceServerErrors；错误率：ServiceServerErrorsRate； ServiceServerErrorsRate > 10%为不可用。但每分钟ServiceServerErrors < 10时不计算错误率，默认为正常	每10分钟记录一次（固定间隔）
容器（1款）	容器服务 Kubernetes 版	ACK	集群	某时段内客户所有试图与指定的 ACK Pro 集群 Kubernetes API 服务建立连接并使用服务的连续尝试均失败，则视为该时段内该 ACK Pro 集群服务不可用，标记异常。若未及时恢复，可提交工单上报故障（注意：ACK控制台集群状态的“不可用”指因集群API Server的CLB实例被释放导致的集群无法正常使用，与健康状态含义不同。因此可能出现健康状态正常但ACK控制台集群状态为不可用的情况）	ACK对集群状态进行监测，并记录日志。 Project：meta-cluster-sla-cn-beijing等（每个可用区独立）；sli_level=unavailable为不可用，start_timestamp - end_timestamp为不可用时段	每10分钟记录一次（固定间隔）
存储（6款）	对象存储	OSS	Bucket	某时段内OSS HTTP请求错误率（状态码为5XX的失败请求/全部请求）>10%则视为该时段内该OSS服务不可用，标记异常。若未及时恢复，可提交工单上报故障	OSS对HTTP请求进行监测和计算，并上报至云监控时序指标。Namespace：acs_oss_dashboard；可用性：Availability； Availability<90%时为不可用	每10分钟记录一次（固定间隔）
	块存储	EBS	磁盘	某时段内EBS无法进行读写或读写性能严重下降，则视为该时段内该EBS实例不可用，标记异常。若未及时恢复，可提交工单上报故障	EBS对磁盘状态进行监测，并上报至云监控系统事件。 Product: ecs；本地磁盘开始出现损坏告警：Disk:ErrorDetected:Executing；磁盘性能开始受到严重影响：Disk:Stalled:Executing；以上两个事件任意一个出现即为不可用	状态变化时记录一次
	文件存储 NAS	NAS	文件系统	某时段内客户所有试图与指定的 NAS 单个文件系统实例建立连接的连续尝试均失败，则视为该时段内该 NAS 单个文件系统实例服务不可用，标记异常。若未及时恢复，可提交工单上报故障	NAS对文件系统实例状态进行监测，并记录日志。 Project：ali-aliyun-nas；Slilevel=unavailable为不可用，startTime - EndTime为不可用时段	每10分钟记录一次（固定间隔）
	云备份	Cloud Backup	存储库	某时段内云备份的备份任务失败且失败原因为“备份仓库不可用”，或云备份的恢复任务失败且失败原因为“备份仓库不可用”时则视为该时段内云备份不可用，标记异常。若未及时恢复，可提交工单上报故障	云备份对备份仓库实例（存储库）状态进行监测，并记录日志。 Project：hbr；sli_level=unavailable为不可用，start_timestamp - end_timestamp为不可用时段	每10分钟记录一次（固定间隔）
	日志服务	SLS	日志项目	日志服务服务器端接收到的请求，视为有效请求。由于日志服务原因造成的调用失败，则视为失败请求。某连续时段（10分钟及以上）错误率（失败请求/有效请求）>10%则视为该时段内该服务不可用，标记异常。若未及时恢复，可提交工单处理	SLS对服务请求进行监测，并上报至云监控时序指标。 Namespace：acs_sls_dashboard；失败请求：LogCodeQps指标中筛选5XX的数量；有效请求：LogCodeQps总数量；计算每10分钟时段的错误率（失败请求总量/有效请求总量）> 10%为不可用。有效请求总量 < 100时不计算错误率，默认为正常	每10分钟记录一次（固定间隔）
	表格存储	Tablestore	实例	Tablestore 将 HTTP 状态码为5XX且错误码为OTSInternalServerError、OTSPartitionUnavailable、OTSTimeout 以及 OTSServerUnavailable 的请求视为失败请求。Tablestore 服务器端收到的请求视为有效请求。错误率（失败请求/有效请求）>10%则视为该时段内该服务不可用，标记异常。若未及时恢复，可提交工单处理	Tablestore对实例状态进行监测，并记录日志。 Project：ali-ots-sla-cn-beijing等（每个可用区独立）；失败请求：error_count；成功请求：success_count；错误率= （error_count/（success_count+error_count））>10%为不可用	每10分钟记录一次（固定间隔）
网络与CDN（6款）	CDN	CDN	域名	某时段内CDN服务请求错误率（因CDN系统原因导致的域名返回的5XX的失败请求/全部请求）>10%则视为该时段内该CDN服务不可用，标记异常。若未及时恢复，可提交工单上报故障	CDN对服务请求进行监测，并上报至云监控时序指标。Namespace: acs_cdn；错误率：code5xx；全部请求：QPS60；code5xx>10%为不可用，但每分钟全部请求（QPS60）<40时不计算错误率，默认为正常	每10分钟记录一次（固定间隔）
	全站加速DCDN	DCDN	域名	某时段内DCDN服务请求错误率（因DCDN系统原因导致的域名返回的5XX的失败请求/全部请求）>10%则视为该时段内该DCDN服务不可用，标记异常。若未及时恢复，可提交工单上报故障	DCDN对服务请求进行监测，并上报至云监控时序指标。Namespace: acs_dcdn；错误率：code_ratio_5；全部请求：dcdn_qps60；code_ratio_5>10%为不可用，但每分钟全部请求（dcdn_qps60）<40时不计算错误率，默认为正常	每10分钟记录一次（固定间隔）
	弹性公网 IP	EIP	实例	某时段内 EIP 实例出方向所有数据包都在阿里云出口网关设备丢弃时，则视为该时段内该 EIP 实例服务不可用，标记异常。若未及时恢复，可提交工单上报故障	EIP对实例状态进行监测，并记录日志。 Project：metric-eip-ops-cn-beijing等（每个可用区独立）；sli_level=unavailable为不可用，begin_ts - end_ts为不可用时段	每10分钟记录一次（固定间隔）
	云数据传输	CDT	NA	某时段内CDT提供的统一计费和出账功能异常则视为该时段内CDT服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单上报故障	云数据传输属于全球服务，不区分地域及实例。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-云数据传输	状态变化时记录一次
	负载均衡	SLB	实例	某时段内客户所有试图与指定的 SLB 实例中某个监听所建立连接的连续尝试均失败，则视为该时段内该 SLB 实例服务不可用，标记异常。可通过停止/启动实例尝试恢复，或提交工单上报故障（注意：若实例设置了ACL或安全组拦截，将无法准确检测连接状态，暂不支持展示）	SLB对实例状态进行监测，并记录日志。 Project：metric-slb-ops-cn-beijing等（每个可用区独立）；sli_level=unavailable为不可用，begin_ts - end_ts为不可用时段	每10分钟记录一次（固定间隔）
	NAT 网关	NAT Gateway	实例	某时段内NAT网关实例出方向所有数据包都被阿里云出口网关设备丢弃时，则视为该时段内该NAT网关实例服务不可用，标记异常。若未及时恢复，可提交工单处理	NAT网关对实例状态进行监测，并上报至云监控系统事件。 Product: nis； NAT数据链路不可用：problem-nat-datapathUnavailable；不可用超过10分钟会发送一次该事件，若持续不可用，会每隔10分钟发送一次该事件。当收不到该事件时表明已恢复正常	每10分钟记录一次（任意间隔）
安全（6款）	数字证书管理服务（原SSL证书）	SSL Certificate	NA	某时段内客户签发证书验证时候试图链接/访问证书产品的对应的CRL/OCSP服务时连接尝试均失败，则视为该时段内该数字证书管理服务的CRL/OCSP服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单上报故障	数字证书管理服务属于全球服务，不区分地域及实例。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-数字证书管理服务（原SSL证书）	状态变化时记录一次
	Web应用防火墙	WAF	防护对象	某时段内WAF服务请求错误率（因WAF系统原因导致的域名返回状态码为5XX和4XX请求/全部请求）>10%则视为该时段内该服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单上报故障	Web应用防火墙属于全球服务，不区分地域。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-Web应用防火墙	状态变化时记录一次
	云安全中心	Security Center	NA	某时段内云安全中心服务请求错误率（因云安全中心系统原因导致的域名返回状态码为5XX的失败请求/全部请求）>10%则视为该时段内该服务不可用，标记异常。若未及时恢复，可提交工单上报故障	云安全中心对服务请求进行监测，并记录日志。 Project：sas-sla-pop-aliyun-cn-sh；失败请求：error_count_5xx；成功请求：success_count；错误率= （error_count_5xx/（success_count+error_count_5xx））>10%为不可用	每10分钟记录一次（任意间隔）
	内容安全	Content Moderation	NA	某时段内内容安全服务请求错误率（HTTP状态码为5XX的请求/全部请求）>10%则视为该时段内该服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单上报故障	内容安全属于全球服务，不区分地域及实例。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-内容安全	状态变化时记录一次
	风险识别	Fraud Detection	NA	风险识别属于全球服务，不区分地域及实例，支持故障监测及自动修复。某时段内风险识别服务发生服务事件则视为该时段内该服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单处理	风险识别属于全球服务，不区分地域及实例。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-风险识别	状态变化时记录一次
	实人认证	ID Verification	NA	实人认证属于全球服务，不区分地域及实例，支持故障监测及自动修复。某时段内实人认证服务发生服务事件则视为该时段内该服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单处理	实人认证属于全球服务，不区分地域及实例。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-实人认证	状态变化时记录一次
中间件（3款）	API 网关	API Gateway	实例	某时段内API网关服务请求错误率（由于⽹关原因造成的API调⽤失败请求/全部请求）>10%则视为该时段内该实例不可用，标记异常。若未及时恢复，可提交工单上报故障	API网关对服务请求进行监测和计算，并上报至云监控时序指标。Namespace：acs_apigateway_dashboard；全部请求：request_count_instance；失败请求：error_count_instance；实例节点丢失比例：instance_lost； 1、instance_lost = 100%为不可用 2、（error_count_instance /request_count_instance）> 10%为不可用。但每10分钟request_count_instance < 100时不计算错误率，默认为正常	每10分钟记录一次（固定间隔）
	云消息队列 MQ	ApsaraMQ	实例	某时段内客户所有试图与指定的 RocketMQ 实例建立连接的尝试均失败，或调用指定 API 进行消息生产、消息消费以及消费确认的请求均失败，则视为该时段内该实例服务不可用，标记异常。若未及时恢复，可提交工单处理。（注意：暂仅支持 RocketMQ 5.x）	RocketMQ 对实例进行状态监测，并通过云监控系统事件上报可用性状态的变化。 Product: rocketmq 事件名称：Instance_Failure_Start：故障开始，即不可用；Instance_Failure_End：故障结束，即恢复正常	状态变化时记录一次
	云消息队列 Kafka 版	Kafka	实例	某时段内客户所有试图调用消息队列 Kafka 指定实例下 Topic 的 API 的连续尝试均失败，或消息投递延迟超过 5 分钟以上，则视为该时段内该实例服务不可用，标记异常。若未及时恢复，可提交工单处理	Kafka 对实例进行状态监测，并通过云监控系统事件上报可用性状态的变化。 Product: kafka 事件名称：Instance_Failure_Start：故障开始，即不可用；Instance_Failure_End：故障结束，即恢复正常	状态变化时记录一次
数据库（9款）	云数据库 RDS	RDS	实例	某时段内客户所有试图与指定的RDS实例建立连接的连续尝试均失败，则视为该时段内该实例服务不可用，标记异常。可通过重启实例尝试恢复，或提交工单上报故障	RDS对实例状态进行监测，并上报至云监控系统事件。 Product: rds；事件名称：Instance_Failure_Start，故障开始，即不可用；Instance_Failure_End：故障结束，即恢复正常	状态变化时记录一次
	云数据库 MongoDB 版	MongoDB	实例	某时段内客户所有试图与指定的MongoDB实例建立连接的连续尝试均失败，则视为该时段内该实例服务不可用，标记异常。可通过重启实例、组件或节点尝试恢复，或提交工单上报故障	MongoDB对实例状态进行监测，并上报至云监控系统事件。 Product: mongodb；事件名称：Instance_Failure_Start，故障开始，即不可用；Instance_Failure_End：故障结束，即恢复正常	状态变化时记录一次
	云原生数据库 PolarDB	PolarDB	集群	某时段内客户所有试图与指定的PolarDB集群建立连接的连续尝试均失败，则视为该时段内该集群服务不可用，标记异常。可通过节点管理尝试恢复，或提交工单上报故障	PolarDB对实例状态进行监测，并上报至云监控系统事件。 Product: polardb；事件名称：Instance_Failure_Start，故障开始，即不可用；Instance_Failure_End：故障结束，即恢复正常	状态变化时记录一次
	云数据库 Redis 版	Redis	实例	某时段内客户所有试图与指定的Redis实例建立连接的连续尝试均失败，则视为该时段内该实例服务不可用，标记异常。可通过重启实例尝试恢复，或提交工单上报故障	Redis对实例状态进行监测，并上报至云监控系统事件。 Product: redis；事件名称：Instance_Failure_Start，故障开始，即不可用；Instance_Failure_End：故障结束，即恢复正常	状态变化时记录一次
	云原生分布式数据库 PolarDB-X	PolarDB-X	实例	某时段内客户所有试图与指定的PolarDB-X实例建立连接的连续尝试均失败，则视为该时段内该实例服务不可用，标记异常。可通过重启实例尝试恢复，或提交工单处理。（注意：仅支持2.0实例，1.0实例建议升级到2.0，可参考PolarDB-X 1.0升级至PolarDB-X 2.0）	PolarDB-X对实例状态进行监测，并上报至云监控系统事件。 Product: drds；事件名称：Instance_Failure_Start，故障开始，即不可用；Instance_Failure_End：故障结束，即恢复正常	状态变化时记录一次
	云原生数据仓库 AnalyticDB PostgreSQL版	AnalyticDB for PostgreSQL	实例	某时段内客户所有试图与指定的AnalyticDB PostgreSQL实例建立连接的连续尝试均失败，则视为该时段内该实例服务不可用，标记异常。可通过重启实例尝试恢复，或提交工单处理	AnalyticDB PostgreSQL 对实例进行状态监测，并通过云监控系统事件上报可用性状态的变化。 Product: gpdb 事件名称：Instance_Failure_Start：故障开始，即不可用；Instance_Failure_End：故障结束，即恢复正常	状态变化时记录一次
	数据传输服务	DTS	实例	某时段内DTS实例的写入数据无法同步到目的端，且状态持续超过5分钟以上，则视为该时段内该实例服务不可用，标记异常。若未及时恢复，可提交工单处理	DTS对实例状态进行监测，并上报至云监控时序指标。 Namespace：acs_dts；同步任务实例不可用：SynchronizationLatency（同步任务延迟）超过5分钟且持续5分钟以上为不可用订阅任务实例不可用：ChangeTrackingLatency（订阅任务延迟）超过5分钟且持续5分钟以上为不可用迁移任务实例不可用：MigrationLatency（迁移任务延迟）超过5分钟且持续5分钟以上为不可用	每5分钟记录一次（固定间隔）
	数据管理	DMS	NA	因为 DMS 故障导致（排除数据库网关故障）的调用失败请求视为失败请求。DMS 服务器端收到的所有请求视为有效请求。错误率（失败请求/有效请求）>10%则视为该时段内该服务不可用，标记异常。若未及时恢复，可提交工单处理	DMS 对服务请求进行监测，并记录日志。 Project:dms-enterprise-sla-pop-aliyun-cn；失败请求：error_count_5xx；成功请求：success_count；错误率= （error_count_5xx/（success_count+error_count_5xx））>10%为不可用	每10分钟记录一次（固定间隔）
	数据库自治服务	DAS	NA	因为 DAS 故障导致客户的正常请求未正常响应，视为失败请求。单个 DAS 服务单元的 DAS 服务器端接收到的所有请求视为有效的总请求。某时段内错误率（失败请求/有效请求）>10%则视为该时段内该服务不可用，标记异常。若未及时恢复，可提交工单处理	DAS 对服务请求进行监测，并记录日志。 Project:das-sla-pop-aliyun-cn；失败请求：error_count；成功请求：success_count；错误率= （error_count/（success_count+error_count））>10%为不可用，但10分钟内有效请求<100时默认为正常	每10分钟记录一次（固定间隔）
人工智能与机器学习（1款）	智能开放搜索	Open Search	应用	某时段内客户所有试图向开放搜索应用发起的搜索请求建立连接的连续尝试均失败，则视为该时段内该开放搜索应用不可用，标记异常。若未及时恢复，可提交工单处理	Open Search对服务请求进行监测和计算，并上报至云监控时序指标。 Namespace: acs_opensearch 请求状态：StatusCodeByGateway，其中5XX为失败请求。当10分钟内StatusCodeByGateway全部为5XX且数量>30为不可用	每10分钟记录一次（固定间隔）
其他（7款）	视频直播	LIVE	域名	因视频直播故障导致（1）FLV-HTTP/RTMP:维持链接20秒未返回数据；（2）HLS:5XX类错误的请求视为失败请求。某时段内错误率（失败请求/全部请求）>20%则视为该时段内该视频直播服务不可用，标记异常。若未及时恢复，可提交工单上报故障	LIVE对服务请求进行监测，并上报至云监控时序指标。Namespace: acs_videolive；错误率：code5xx；全部请求：QPS60； code5xx>20%为不可用，但每分钟总请求（QPS60）<100时不计算错误率，默认为正常	每10分钟记录一次（固定间隔）
	短信服务	SMS	NA	某时段内所有提交短信的有效号码结果均为明确失败（指短信（验证码、行业通知短信、推广短信）提交至有效号码终端导致的失败），则视为该时段内该短信服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单上报故障	短信服务属于全球服务，不区分地域及实例。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-短信服务	状态变化时记录一次
	语音服务	VS	NA	某时段内客户所有调用发起语音外呼API接口的尝试均失败，则视为该时段内该语音服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单上报故障	语音服务属于全球服务，不区分地域及实例。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-语音服务	状态变化时记录一次
	号码隐私保护	PNP	NA	某时段内客户所有调用发起号码隐私保护的绑定API接口尝试均失败，则视为该时段内该号码隐私保护服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单上报故障	号码隐私保护属于全球服务，不区分地域及实例。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-号码隐私保护	状态变化时记录一次
	邮件推送	Direct Mail	NA	某时段内因阿里云邮件推送系统原因导致客户所有有效请求（用户连接到阿里云邮件推送服务器并验证成功的请求）均发信失败，则视为该时段内该邮件推送服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单上报故障	邮件推送属于全球服务，不区分地域及实例。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-邮件推送	状态变化时记录一次
	阿里邮箱	Alibaba Mail	NA	某时段内客户通过 SMTP、POP、IMAP或Webmail中任意一种方式收发邮件一直失败，则视为该时段内该阿里邮箱服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单上报故障	阿里邮箱属于全球服务，不区分地域及实例。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-阿里邮箱	状态变化时记录一次
	云解析DNS	DNS	域名	某时段内客户所有对云解析DNS服务器的域名查询均失败，则视为该时段内该云解析DNS实例服务不可用，标记异常。可查看阿里云健康看板事件修复进展，或提交工单上报故障	云解析DNS属于全球服务，不区分地域。其对服务状态进行监测，并将可用性状态同步至阿里云健康看板的非区域性-云解析DNS	状态变化时记录一次

说明

状态变化时记录一次：由可用变为不可用记录一次，由不可用变为可用再记录一次。如12:00:02开始不可用，12:00:06恢复正常，则12:00:02-12:00:06会标记为异常。
每10分钟记录一次（固定间隔）：00:00-09:59、10:00-19:59等固定10分钟间隔记录一次该时段计算的结果。如12:00:00-12:09:59计算为不可用则标记为异常，12:10:00-12:19:59计算为可用则标记为正常，系统不会计算12:01:00-12:10:59此类非固定时段的结果。
每10分钟记录一次（任意间隔）：任意时刻开始不可用且不可用持续10分钟，则记录该10分钟为不可用。如12:00:02开始不可用且持续到12:12:05，则12:00:02-12:10:01标记为异常，而12:10:02-12:12:05不足10分钟标记为正常。