灰度分布常见故障-灰度分布常见故障文档介绍内容-阿里云

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障，并针对故障制定出详细的演练和恢复计划，保证用户能够有计划地测量和观测应用高可用能力。

ADP底座介绍

常见故障场景自动诊断：内置长期经验沉淀的运维知识库，自动识别常见故障问题，并提供故障处置建议。自动化巡检和告警通知：内置基础告警策略并可灵活配置，可对接多种告警通知方式，定期巡检，及时感知问题。业务数据的存储备份及还原：...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查：ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时，某交换机的ECS实例不能访问公网访问流量异常类故障排查：客户端访问...

高性能版实例

以下内容为 AnalyticDB PostgreSQL版实例常见故障场景中高性能版和高可用版的对比：恢复（Recovery）模式根据以往 AnalyticDB PostgreSQL版运行情况，故障最大的场景为恢复模式，故障概率远大于另外两种场景（计算节点故障和计算节点宿...

故障演练

故障隶属于单机或是分布式系统之一，分布式故障包含单机故障。对于单机或同机型的故障，以系统为视角，故障可能是当前进程内的故障，比如：如FullGC，CPU飙高；进程外的故障，比如其他进程突然抢占了内存，导致当前系统异常等。对于大多数...

常见问题

运维管理容器应用服务常见问题经典应用服务常见问题中间件 SOFABoot 常见问题微服务常见问题微服务故障排查之 DRM 微服务故障排查之限流微服务故障排查之 RPC 服务网格-故障排查消息队列常见问题任务调度常见问题分布式链路跟踪...

应用场景

故障恢复通过ASM，可以轻松实现开箱即用的故障恢复功能：分布式系统存在高度复杂性，在基础设施、应用逻辑、运维流程等环节都可能存在稳定性风险导致业务系统的失效。提供了基于Istio的混沌工程能力，包括如何使用连接池配置和异常检测...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题，可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题，更直观地了解调用链分析的用法与价值。背景...

功能发布记录（2018~2022年）

优化选择注册中心运维方式支持为多语言应用配置故障注入通过给应用注入特定故障，来检测该应用的消费者处理异常情况的能力。新增已下线支持为多语言应用配置服务超时服务超时机制可以在请求的处理时间超过设置的时间时直接返回错误...

附录：SOFAStack 产品目录

分布式链路跟踪分布式链路跟踪（Distributed System Tracing，简称 DST）是一款面向分布式架构、微服务架构和云原生架构的应用可观察性的金融级解决方案，帮助用户厘清应用间复杂的调用关系，迅速定位故障或者缓慢节点。产品架构产品优势...

直播公告（2020~2022年）

微服务体系在阿里巴巴内部广泛使用，历经10多年双十一考验，甚至经历多次断网、节点全挂、存储不可用等各种高危故障，由此沉淀出了许多宝贵经验，阿里云微服务引擎 MSE 生长在此基础之上，默认具备许多项高可用能力。服务发现与配置管理高...

Nginx Ingress Controller使用建议

在部署Nginx Ingress Controller时，请确保Nginx Ingress Controller分布在不同的节点上，避免不同Nginx Ingress Controller之间资源的抢占和单点故障。您也可以为其使用独占节点来保证性能与稳定性，具体操作，请参见使用独占节点保证...

Nginx Ingress Controller使用建议

在部署Nginx Ingress Controller时，请确保Nginx Ingress Controller分布在不同的节点上，避免不同Nginx Ingress Controller之间资源的抢占和单点故障。您也可以为其使用独占节点来保证性能与稳定性，具体操作，请参见使用独占节点保证...

应用场景

本文主要为您介绍容器服务 ACK 的常见应用场景。DevOps 持续交付最优化的持续交付流程配合 Jenkins 帮您自动完成从代码提交到应用部署的 DevOps 完整流程，确保只有通过自动测试的代码才能交付和部署，高效替代业内部署复杂、迭代缓慢的...

配置任务常见错误码及排查方法

原因：通讯链路故障，JDBC驱动程序数据包成功发送到源数据库服务器，但未收到来自源数据库的数据包。解决方法：排查数据库的连接数是否过多。参考 communications link failure 处理。联系技术支持解决。DTS.Msg.SQLExecuteError....

服务支持

NLP自然语言处理常见问题调用异常自助排查（错误码汇总）服务协议 NLP自学习平台常见问题实体抽取项目常见问题故障排除私有化部署企业智能搜索错误码对照表常见问题

应用故障自动诊断

常见的故障自动诊断场景 RT突增下游业务导致的本应用的RT突增，您可以联系下游业务的负责人进行排查。应用变更导致的RT突增，您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增，可以排查以下情况：服务是否在此时有发生...

执行演练

在执行故障演练过程中，您可以实时查看演练进度、每个演练活动的运行状态及结果，同时也能够随时结束演练，进行恢复阶段的活动，清除故障演练影响。背景信息一次完整的故障演练包括以下四个...后续步骤停止演练常见问题故障演练常见问题

变更发布策略

常见的做法包括基于HTTP Header和Cookie，将特定请求或用户灰度至新版本，降低故障影响范围。金丝雀发布：通过调整流量权重比例，逐步将流量从老版本切换至新版本。同时对老版本服务进行缩容，对新版本进行扩容，相比蓝绿发布资源利用率较...

GTM如何实现异地容灾

概述方案介绍异地容灾是指应用服务部署在不同地域时，当其中一地出现故障时，全局流量管理（简称GTM）可以将出现故障地域的用户访问流量，调度至异地灾备中心，保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务，可以帮助基于传统SAN的业务无缝上云，共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享，当数据被...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法，结合环境光强度、环境温度等影响因素，对组串式光伏发电阵列的电流-电压曲线（I-V曲线）进行分析，检测系统可能出现的故障，进而提高设备的运行效率，保障电站高效运行。本文介绍光伏智能运维...

GTM实现跨网访问加速与故障切换

概述方案介绍大部分企业的应用服务都会使用多个运营商的IP地址，因此可能会存在跨网延迟、丢包、故障不可用等问题，而全局流量管理产品方案可以根据用户请求源地址的运营商，解析就近的应用服务器IP地址，实现就近接入、访问加速、故障...

设置开关推送

灰度批次：指推送的批次数，范围为2至机器总数。每批的机器数为总机器数/批次数。按机器顺序推送，同一批次内推送机器并行，多批次间按顺序推送。例如有10台机器，灰度批次设为3，则先推送前3台机器，再推送3台机器，最后再推送4台机器。...

新手指引

模块问题计费常见问题数据库常见问题流量统计常见问题网站管理常见问题管理控制台常见问题网站耗资源（客户程序故障）常见问题更多常见问题，请参见常见问题和故障排除汇总。反馈与建议在使用阿里云云虚拟主机时，如果有任何疑问...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景，对基础设施、底座、中间件的常见故障场景进行覆盖，涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景（如机器重启、网卡损坏），可能导致环境状态异常、...

故障排查与常见问题

控制台访问集群异常问题排查组件异常问题排查 ACK Serverless集群故障排查常见问题索引集群类型相关文档托管版与专有版容器集群ACK 常见问题 ACK Serverless集群常见问题分布式云容器平台ACK One 常见问题容器服务ACK发行版常见...

业务流量隔离功能实践

安全生产环境区别于一般的灰度发布，安全生产环境是搭建一套与生产环境中间件隔离的环境，包含独立配套的监控告警系统，便于灰度发布、故障演练、链路压测、算法调优等，能有效优化研发流程和线上产品服务稳定性。由于中间件隔离，上游...

服务支持

PolarDB分布式版新功能发布记录常见问题 PolarDB MySQL版常见问题 PolarDB PostgreSQL版常见问题 PolarDB PostgreSQL版（兼容Oracle）常见问题 PolarDB分布式版常见问题服务等级协议 PolarDB MySQL版服务等级协议SLA PolarDB PostgreSQL...

如何使用全链路流量控制排查应用问题

在灰度分组上通过流量监控可查看流量的分布，判断灰度规则是否生效，以及流量的分布是否符合预期。具体操作，请参见监控灰度流量。通过灰度流量，在应用D的灰度分组上排查问题。如果排查过程顺利，准备排查目标应用B，为应用B创建灰度...

监控报警概述

实时监控提供终端用户登录云电脑的实时数据（例如用户在线数量、在线时长的前十用户、平均登录时间和云电脑网络延迟分布情况）以及相关故障预警信息，以便快速准确定位，迅速处理故障，避免因资源、网络问题或者外部操作原因造成不必要的...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查在浏览器中输入 XXX:8848/nacos，访问MSE的Nacos注册中心时返回404错误。具体操作，请参见通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

使用版本和别名实现灰度发布

值分布百分比：表示按照参数值的特定百分比灰度发布。例如，设置参数类型为Header，参数为 user-id，值为 20，表示根据HTTP请求Header user-id 的具体分布，取其中20%分布值对应的请求路由至灰度版本。值：控制灰度发布的参数值。单击...

GTM如何实现同城容灾

概述方案介绍同城容灾指应用服务部署是多机房、单地域时，当其中一机房出现故障时，全局流量管理（简称GTM）可实现业务7*24小时稳定运行，即使单机房故障也不影响业务的可持续性，保障用户访问连续不间断。本文将以同城双活的灾备架构为...

常见问题旧版索引

本文介绍容器服务ACK的常见问题。您在使用容器服务ACK时如果收到容器服务ACK返回的错误信息，可查阅容器服务ACK错误码匹配解决方案。如果您没有收到具体的错误信息，可根据以下问题分类匹配问题场景和解决方案。入门FAQ 方案规划容器...

设计方案

基于稳定性支柱设计原则，整体稳定性设计方案可参考如下：架构设计原则软件系统从所有的功能都在一个应用程序内运行的单体应用架构，到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构，再到服务细分通过轻量级的通信机制...

全场景解决方案

针对金融行业客户在分布式架构转型过程和上云过程中的痛点，提供的产品和服务解决方案，帮助运维人员有效地整合现有工具、经验，标准化、自动化、流程化提升应急效率，以及分布式架构下全业务链路的故障定位能力。方案优势双模应用部署 ...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常添加Kubernetes集群节点的常见问题容器镜像仓库构建服务失败问题排查容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

什么是应用配置管理ACM？

凭借配置变更、配置推送、历史版本管理、灰度发布、配置变更审计等配置管理工具，ACM能帮助您集中管理所有应用环境中的配置，降低分布式系统中管理配置的成本，并降低因错误的配置变更造成可用性下降甚至发生故障的风险。迁移到MSE Nacos ...

设计原则

面向风险的应急快恢原则在一些场景下，即使设计了各种技术手段去提高系统的冗余、保持业务的高可用，但还是避免不了生产系统故障的发生，所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台，实现故障风险实时发现、应急...

灰度分布常见故障

新品推荐