本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...
多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务下单链路案例,介绍典型的流水单据型业务场景,如何基于多活容灾...相关文档 什么是故障演练 为什么需要多活容灾?
多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活容灾...相关文档 什么是故障演练 为什么需要多活容灾?
应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活容灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务...更多信息,请参见 什么是故障演练。
关于故障演练计费的常见问题 什么是故障规则下发次数?一次故障注入即为一次故障规则下发。例如:对 10 台 ECS 注入 CPU 满载和磁盘填充两种故障,则故障注入次数为 10(ECS数)×2(故障场景数)=20次,那么故障规则下发次数即为 20 次。...
更多信息,请参见 什么是故障演练。容灾阶段:在容灾防护阶段,您需要构建系统的容灾解决方案。阿里云提供了 多活容灾 平台助力您建设系统容灾稳定性。更多信息,请参见 为什么需要多活容灾?PTS压测流程 PTS是具备强大分布式压测能力的...
本文主要介绍什么是故障协同处理。云钉运维故障协同效果 功能概述 移动应用端(目前仅支持“钉钉”,以下功能说明均基于钉钉场景)支持接收故障消息提示和进行故障操作,且支持移动端操作管理故障,操作记录实时同步到 运维事件中心 控制台...
更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...
Q:谐云组件故障排查思路 A:elasticsearch《故障排查思路》mysql《故障排查思路》redis《故障排查思路》harbor《故障排查思路》通用排查《中间件通用故障排查思路》ingress《故障排查思路》rocketmq《故障排查思路》kafka《故障排查思路》...
Canceled:因系统维护实例重新部署已取消 阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重新部署,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。重要 使用了本地SSD盘...
故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...
目录 什么是数据库代理?通用型代理和独享型代理有什么区别?数据库代理是否占用主实例的QPS或者TPS?数据库代理地址和常规地址是否是一个地址?开通数据库代理后,实例原来的地址和只读实例的地址是否会被收回?数据库代理的内网网络类型...
数据库代理是什么架构,有故障切换机制吗?数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点重搭恢复任务,以确保数据库服务的...
发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。这种方式也是推拉结合,及时触达用户。发布小程序更新如果故障发生在小程序中,只需要重新修改小程序,重新发布。和 H5 离...
更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...
功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的功能特点:特点1:任务的故障是部分的。通常,故障的根因是一到两台机器的故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有...
实际业务使用过程中单点故障是常态,确保故障情况下业务连续性是高可用系统的核心能力,在云上存储和网络具备极高的可用性。而计算节点则经常受断电、宕机、硬件故障等影响,所以业务通常搭建主备模式解决计算的高可用问题。例如数据库场景...
案例实践二:安全生产环境 业务需求 从历史故障分析,大部分故障是因为没有经过灰度直接全量发布到生产环境所造成的。因此当前的需求是建设安全生产环境,通过安全生产环境的小流量灰度验证和观测,提前暴露问题和风险。具体需求内容包括:...
什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码错误严重等原因,造成服务器负载急剧上升,影响您访问网站时的正常使用。...
您可以自主迁移故障潜伏期的DDH到其他物理机,具体操作请参见 迁移有潜在故障风险的DDH。是 故障 稳定状态 DDH出现故障。您可以 提交工单 检查并处理问题。是 已过期 稳定状态 包年包月DDH到期时出现的状态。对DDH续费后,DDH的状态会变为 ...
调用CreateFailoverTestJob接口创建高速通道故障演练任务。接口说明 以下场景不支持创建故障演练任务:当前地域您已经有正在演练的故障演练任务,且本次创建故障演练任务的任务类型为立即开始。物理专线实例或者共享物理专线实例没有支付...
调用DescribeFailoverTestJob接口查询高速通道故障演练任务详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。...
调用CreateFailoverTestJob接口创建高速通道故障演练任务。接口说明 以下场景不支持创建故障演练任务:当前地域您已经有正在演练的故障演练任务,且本次创建故障演练任务的任务类型为立即开始。物理专线实例或者共享物理专线实例没有支付...
调用DescribeFailoverTestJob接口查询高速通道故障演练任务详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。...
调用StopFailoverTestJob接口结束高速通道故障演练任务。接口说明 只支持结束处于 演练中状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...
调用StopFailoverTestJob接口结束高速通道故障演练任务。接口说明 只支持结束处于 演练中状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...
调用DeleteFailoverTestJob接口删除高速通道故障演练任务。接口说明 只支持删除处于 待演练和 已完成状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动...
调用DeleteFailoverTestJob接口删除高速通道故障演练任务。接口说明 只支持删除处于 待演练和 已完成状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动...
调用StartFailoverTestJob接口开始高速通道故障演练任务。接口说明 只支持开始处于 待演练状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...
调用StartFailoverTestJob接口开始高速通道故障演练任务。接口说明 只支持开始处于 待演练状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...
调用UpdateFailoverTestJob接口更新高速通道故障演练任务。接口说明 只支持更新处于 待演练状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...
调用UpdateFailoverTestJob接口更新高速通道故障演练任务。接口说明 只支持更新处于 待演练状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...
调用DescribeFailoverTestJobs接口批量查询高速通道故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息...
调用DescribeFailoverTestJobs接口批量查询高速通道故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息...
应用诊断是对应用的单独故障诊断,可以由链路诊断触发或人工触发。高可用管理平台通过应用诊断初步定位问题,锁定可疑应用,再通过 Arthas 和线程分析进一步确认问题。目前,应用诊断支持用户应用和蚂蚁应用。应用诊断是故障诊断的原子能力...
节点runc进程泄露情况 检查节点runc进程是否发生泄露,runc进程泄露可能会导致节点间歇性地处于NotReady状态。节点runc进程泄露,请检查并手动关闭泄露的runc进程。节点内核SoftLockupError情况 检查节点内核是否出现SoftLockupError。节点...
Hologres 从V1.1版本开始,针对线上生产环境高可用的场景,提供了共享存储的主从多实例部署方式,在该模式下支持故障隔离,负载隔离,有效支撑了高可用场景。本文介绍高可用方案的一些基本原理以及如何配置共享存储的主从多实例。单实例...
架构和架构组件 为了更好地理解AHAS提供的架构感知模块,您需要先了解什么是架构和架构组件。架构分为水平和垂直两个维度:水平架构:进程拓扑、容器拓扑、主机拓扑。垂直架构:进程、容器、主机之间的依赖关系。架构组件是指架构的组成...
SOFATracer 支持 Spring MVC、标准 JDBC 接口实现的数据库连接池(DBCP、Druid、c3p0、tomcat、HikariCP、BoneCP)、HttpClient、Dubbo、Spring Cloud OpenFeign 等开源组件。组件埋点接入后,即可查看相关 Tracer 日志。...
什么是CLB访问日志 CLB的访问日志功能收集了所有发送到CLB的请求的详细信息,包括请求时间、客户端IP地址、延迟、请求路径和服务器响应等。CLB作为公网访问入口,承载着海量的访问请求,您可以通过访问日志分析客户端用户行为、了解客户端...