应用场景

故障恢复 通过ASM,可以轻松实现开箱即用的故障恢复功能:分布式系统存在高度复杂性,在基础设施、应用逻辑、运维流程等环节都可能存在稳定性风险导致业务系统的失效。提供了基于Istio的混沌工程能力,包括如何使用连接池配置和异常检测...

常见问题

A:PolarDB 是一个关系型数据库云服务,目前已在全球十多个地域(Region)的数据中心部署,向用户提供开箱即用的在线数据库服务。PolarDB 目前支持3种独立的引擎,分别可以100%兼容MySQL、100%兼容PostgreSQL、高度兼容Oracle语法,存储...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练...

搭建高可用架构

MySQL:RDS MySQL集群版实例采用计算与存储分离、一主多备的架构,支持自动故障切换、任意备节点可切换为主节点、备节点可读、按需增删节点、多可区容灾、节点粒度的监控、集群节点拓扑管理等功能,同时还可启用MGR保障RPO=0,相比自建...

更换实例所属的可用区

单可用区实例可以承受服务器和机架级别的故障,而多可区实例可以承受机房级别的故障。从多可区迁移至单可用区 满足特定功能的要求。操作步骤 警告 该操作会产生连接闪断,请确保业务具有重连机制并在业务低峰期执行。访问 Tair实例列表...

更换实例所属的可用区

单可用区实例可以承受服务器和机架级别的故障,而多可区实例可以承受机房级别的故障。从多可区迁移至单可用区 满足特定功能的要求。操作步骤 警告 该操作会产生连接闪断,请确保业务具有重连机制并在业务低峰期执行。访问 Redis实例...

步骤七:故障切换

该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。故障恢复类型 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再...

步骤七:故障切换

该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。故障恢复类型 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再...

迁移可用区

单可用区实例可以承受服务器和机架级别的故障,而多可区实例可以承受机房级别的故障。例如将三节点副本集中的节点,分别部署在同一地域的三个不同的可用区,可承受更高级别的灾难。说明 关于多可区副本集实例和分片集群实例的节点部署...

迁移可用区

例如,单可用区实例可以承受服务器和机架级别的故障,而多可区实例可以承受机房级别的故障。说明 对于包含主备节点的实例,建议迁移至多个可用区,实现实例的跨可用区容灾。从多个可用区迁移至一个可用区 为了满足特定功能的要求。操作...

迁移可用区

例如,单可用区实例可以承受服务器和机架级别的故障,而多可区实例可以承受机房级别的故障。说明 对于包含主备节点的实例,建议迁移至多个可用区,实现实例的跨可用区容灾。从多个可用区迁移至一个可用区 为了满足特定功能的要求。操作...

迁移可用区

例如,单可用区实例可以承受服务器和机架级别的故障,而多可区实例可以承受机房级别的故障。对于包含主备节点的实例,建议迁移至多个可用区,实现实例的跨可用区容灾。从多个可用区迁移至一个可用区 迁移至主可用区 和 迁移至备可用区 ...

如何排查Java场景下故障注入不生效的问题

开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若未开启,可按照以下步骤设置目标演练的故障执行步骤,开启Debug模式。登录 AHAS控制台,在左侧导航栏选择 故障演练>我的空间。在 ...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可能力。

故障管理

在IT和互联网企业的实践中,以下情况都有可能造成故障:按计划进行的硬件、操作系统维护所引起的故障,包括更换硬盘、操作系统补丁。应用性故障,包括软件应用性能问题、应用缺陷(bug)、系统应用变更。人为操作故障:包括误操作以及不按...

功能优势

AHAS Chaos 支持一次演练包含多个定义的故障场景,同时您可以定制这些场景的运行方式,选择依次进行故障注入或同时注入多个场景,通过不同的策略配置来达到不同的故障注入效果。丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,...

故障注入

运行模式 配置故障注入规则的运行模式,取值如下:拦截模式:满足条件的故障注入请求会被注入。观察者模式:满足条件的故障注入请求不会被注入,只会在 MOSN 里打印日志。故障类型 故障注入支持注入错误或者超时等事件,方便服务的异常测试...

故障演练

对于单机或同机型的故障,以系统为视角,故障可能是当前进程内的故障,比如:如FullGC,CPU飙高;进程外的故障,比如其他进程突然抢占了内存,导致当前系统异常等。对于大多数无损突袭演练的故障模拟,只需要关注故障对当前系统的影响,而...

如何管理故障

改进分析 改进分析用于记录管理故障恢复后的故障复盘。当故障处于复盘中/已复盘状态时,故障详情默认进入故障改进分析tab页;可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间...

故障隔离

配置示例 某应用有 A、B、C 三台服务器,三台服务的状态如下:A:正常 B:异常,异常率 20%C:异常,异常率 40%已配置的故障隔离规则如下:时间窗口大小:10 时间窗口内最少调用次数:20 异常比例阈值:20 异常比例倍数:1 最大隔离数量:1...

故障注入

运行模式 配置故障注入规则的运行模式,取值如下:拦截模式:满足条件的故障注入请求会被注入。观察者模式:满足条件的故障注入请求不会被注入,只会在 MOSN 里打印日志。故障类型 故障注入支持注入错误或者超时等事件,方便服务的异常测试...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,...细化责任拆解:设置主次责团队的故障分拆解逻辑,比如主次责团队默认按7:3比例拆分故障分。故障分统计默认排除:容灾演练&全链路压测符合预期故障、特定打标过不参与故障统计的业务等。

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

故障基础数据管理

如评判各业务团队的故障发现能力的标准就是故障等级定义的监控发现率等。在定义故障等级的时候,需要从功能等级、业务体量、业务特性、量化影响4个维度进行设计,一个简要的通用故障等级定义参考模板如下:业务量级 功能分类 影响面 P1 P2 ...

停止演练

停止演练后,系统会进入恢复阶段,自动清除相应的故障,使故障演练对象恢复演练前的状态。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 自动停止 在创建演练过程中需设置自动恢复时间和保护...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

如何管理事件

故障等级:设置当前需要升级 故障等级 P1-P4。P1最高优,P4最低优;故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;...

应用场景

体系化故障闭环管理 应用场景 基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。能够解决 故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息...

【通知】故障演练功能模块退市公告

由于业务及技术架构调整,阿里云将于2024年05月01日起停止应用高可用服务AHAS下的故障演练功能模块的技术支持,并于2024年11月01日正式下线该模块,但飞天企业版的应用高可用服务AHAS的故障演练CHAOS模块将持续发展。此外,应用高可用服务...

功能更新记录

2021年10月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 微服务强弱依赖支持Dubbo 在应用强弱依赖治理的基础上,微服务强弱依赖治理功能,通过接入MSE,可分析出应用所依赖的Dubbo服务,并能够快速发起方法级别的故障注入(支持...

读多写少型业务场景多活实践

与许多企业一样,该电商业务首次开始考虑容灾建设,是源于一次商品应用的故障,导致导购页面长时间无法访问,电商业务瘫痪。虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始考虑...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

流水单据型业务场景多活实践

复现故障 改造完成容灾架构后,还需验证容灾能力是否符合预期,接下来将历史故障进行复现,通过制造真实的故障来验证容灾恢复能力。演练准备。登录 AHAS控制台。在控制台左侧导航栏选择 多活容灾。在左侧导航栏选择 监控大盘,在顶部菜单栏...

代码逻辑场景

本文列出了故障演练支持的代码逻辑场景。篡改Java方法返回值 修改Java指定方法的返回值,返回指定的值。具体示例,请参见 JVM注入动态脚本。参数名称 是否必选 默认值 参数说明 类名 是 无 完整的类名,包含包名。例如:...

故障演练常见问题

仅对下发成功的故障规则进行计费,所以执行一次演练的费用是在演练执行成功后进行计算的,会去除下发失败的故障规则。故障不生效是否计费?计费。故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故...

容灾预案

4.输入易识别的容灾预案名称,并选择预设的故障地址池,单击 完成 按钮。5.返回预案容灾页面的列表页,并单击 执行 按钮。6.返回全局流量管理页面,访问策略页签下,查看容灾预案的执行结果,下图可以看到当前生效地址已切换至备用地址池...

EMR Kafka磁盘故障运维

磁盘故障及其运维通常伴随着磁盘上的数据销毁。在进行磁盘运维时,您应考虑数据是否需要迁移备份。对于Kafka集群,您还需要考虑Topic分区副本数据是否可以从其他Broker节点分区副本同步恢复。本文以EMR Kafka 2.4.1版本为例,介绍Kafka磁盘...
共有100条 < 1 2 3 4 ... 100 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 云数据库 OceanBase 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用