设计原则

如网络延迟、硬件故障、软件错误、突峰流量等,建议在系统设计阶段就要从这些异常事件引起的系统执行“失败”出发,提供冗余、隔离、降级、弹性等能力,旨在确保系统的高可用性和高可靠性,以应对不可避免的故障和意外发生。面向精细的运维...

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生的故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

自动/手动主备切换

系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集 图 1.副本集架构 ...

AI助手使用说明

发生故障或异常时,通过AI助手底层的告警系统可以自动和PAI进行交互,上报故障信息,并根据故障触发阶段和并行策略选择规避故障方法,对故障机自动进行隔离,并从Checkpoint快速恢复任务。AI助手提供的具体功能如下:异常采集和上报:...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...

流程交互

将这些与第三方系统交互的流程抽象成为具体的功能,即为节点事件,而将节点事件串到流程中的功能即为流程交互。功能说明 流程交互为CIAM与第三方系统交互预留了回调口,可以通过对流程中的节点事件配置、开启、关闭来控制是否与第三方系统...

三星堆大型沉浸式数字交互空间最佳实践

SLB:阿里云负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。阿里云负载均衡产品家族,目前有 ...

同城容灾架构概述

非机房级故障(某个机房的单产品故障,例如其中一个机房的ECS服务器损坏),可以通过对单产品的灾备设计来保障发生故障系统及时切换。应用设计相关参考标准 应用设计相关参考标准如下:无状态化。分布式集群设计、避免单点逻辑出现。幂等...

GTM如何实现同城容灾

创建1个全局访问策略,解析请求流量 选择 全局,主地址池集合 选择「业务中心01」地址池和「业务中心02」地址池,负载均衡策略 选择 返回全部地址,此设置可实现两个数据中心同时提供服务和发生故障系统自动摘除故障地址的效果。...

核身认证移动端请求

通过金融级防攻击测试:抵御各种真实发生的伪造攻击,权威数据源验证。低成本落地方案:纯软件方案,支持普通摄像头,成本极低,适配室内外。国内外权威认证:通过公安部认证、ISO 27001信息安全体系认证,ISO30107-3人脸活体防攻击认证...

人脸核身服务端

通过金融级防攻击测试:抵御各种真实发生的伪造攻击,权威数据源验证。低成本落地方案:纯软件方案,支持普通摄像头,成本极低,适配室内外。国内外权威认证:通过公安部认证、ISO 27001信息安全体系认证,ISO30107-3人脸活体防攻击认证...

ECS系统事件概述

说明 非预期运维事件一般指的是因底层宿主机发生了无法预测的故障,或者ECS实例的操作系统发生了内核错误等问题,导致ECS实例突然出现宕机或重启。因宿主机故障导致ECS实例宕机或重启事件(SystemFailure.Reboot)属于偶发现象,无法避免。...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

节点事件

一个节点事件是一个最小的流程交互单元,管理员通过将节点事件应用到流程交互场景中,实现CIAM系统与第三发系统流程交互的自动化,简而言之,CIAM与第三方系统进行请求响应的事件,我们称之为节点事件。系统内置了一些列节点事件,下图如...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

管理集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

管理集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

容灾管理服务介绍

容灾切换:模拟故障发生时,验证业务系统是否能够达到预期的灾备效果。容灾切回:故障恢复后,将资源切回到之前的状态,验证系统的灾难恢复预案是否合理。相关概念 容灾计划 当CADT应用需要进行容灾演练时,需要为其创建容灾计划,加入了容...

产品架构

滑动验证 滑动验证系统间的交互流程如下图所示。以下是滑动验证系统间的交互流程说明。提交滑动行为。该操作由前端页面中引入的JS自助完成,无需业务平台处理。其中,提交的行为数据包括:浏览器名称、版本 操作系统 屏幕长宽 鼠标点击、...

可观测性的设计原则

它可以记录在系统发生的一切,包括成功的操作、错误的操作、警告信息等等。因此,日志记录是可观测性设计中最基本的需求之一。通过将事件和错误信息记录到日志文件或数据库中,可以方便地进行故障排除和问题诊断。但是,仅仅记录日志并不...

故障演练

为此每一层的系统都会面向失败做设计,对下游组件零信任,确保在故障发生时可以快速的发现和处理。但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

设计方案

从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队对软件生产运行的...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

网络架构容灾

网络是数字世界的基础设施,没有网络的联通,所有信息都无法交互,因此网络架构的设计在应用系统中至关重要,特别是针对网络架构的高可用及容灾能力的设计,是业务在异常发生时,实现快速恢复、降低业务损失的关键。云上网络规划设计 为...

网络资源

容灾:建立容灾和高可用的系统架构,将系统部署在多个地理位置或数据中心,并使用负载均衡和故障切换技术,以确保即使发生网络分区,系统仍然可以继续提供服务。网络闪断故障 指网络连接在短时间内频繁中断和恢复,造成网络连接不稳定的...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

Echarts 热力图

图表样式 配置面板 搜索配置:单击 配置 面板右上角的 搜索配置,可在 搜索配置 面板中输入您需要搜索的配置项名称,快速定位到该配置项,系统支持模糊匹配。详情请参见 搜索资产配置。图表尺寸:包括组件的宽度和高度,单位为px。可单击 ...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

单实例快速恢复

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。节点恢复速度在一分钟左右,当表数量明显增加时,恢复时间会更长。Hologres...

灾备方案

图 1.Tair 容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
实时数仓 Hologres 视觉智能开放平台 智能语音交互 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用