部署高可用及共享存储Web服务

sudo chmod+x/etc/systemd/system/sync_nas.sh sudo chmod+x/etc/systemd/system/sync_check_switch.sh 配置上述脚本的开机自动启动,确保服务器故障恢复后,NAS可用性检测及容灾切换服务可以正常执行。创建 sync-check-switch.service ...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障...故障恢复(初因推荐、快恢推荐),故障复盘(故障复盘规范、故障数据运营)。

故障恢复

故障恢复 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

基本概念

故障恢复(Fail Back)当您的 IDC 内的环境恢复以后,将应用数据迁回自有 IDC 恢复应用运行的过程。RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器...轻量应用服务器故障问题,请参见 故障排除。

故障应急协同

故障应急协同群贯穿整个故障处理过程:7*24故障启动->自动创建应急协同群->自动拉人/通知->定位信息/止损预案推送->一键电话会议->故障直播间->故障恢复应急结束指标汇总。故障应急过程中的重点角色和职责有:故障处理人(技术支持、监控...

故障复盘

故障恢复时间 故障止血(即:不再发生新增业务/用户影响)的时间点(客户端以测试通过且可实际修复问题版本提交APP审核为恢复时间);如果有业务监控以监控恢复至正常基线为准,否则以止血时间为准。注:故障时长及是否降级/减免如有争议,...

故障止损恢复

快恢预案推荐 通用的故障恢复方法一般包括 重启、回滚、扩容、切流、限流、降级 等。快恢的执行效率很大程度取决于是否有完备的预案和定期演练。建议在故障应急协同群中推荐输出常见的快速恢复能力,并提供PC、手机端的一键快速执行能力,...

创建恢复任务

重要 备份数据恢复,支持跨服务器恢复(目标服务器创建了防护策略并成功安装了防勒索客户端),但不支持跨系统恢复恢复备份的数据库为MySQL数据库时,需要进行以下配置。配置项 描述 恢复的时间点 选择要恢复的备份数据的备份时间点。...

设计方案

基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制...

产品高可用

最佳实践:会话同步可以保证长连接不受集群内服务器故障的影响,但是对于短连接或连接未触发会话同步规则时(未完成三次握手),集群内的服务器故障仍可能会影响用户请求。为了防止集群中某台机器故障导致的会话中断,您可以在业务逻辑中...

API概览

ListProblemSubtotals 故障小计列表 RecoverProblem 故障恢复 ReplayProblem 故障复盘 RevokeProblemRecovery 故障撤销恢复 UpdateProblemNotice 更新故障通告 CreateProblemMeasure 创建故障改进措施 DeleteProblemMeasure 删除故障改进...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

服务器软件漏洞修复建议

因此,修复服务器软件漏洞的过程应格外慎重和严格,同时需充分考虑业务连续性和服务的高可用性。本文旨在提供一系列方法和建议,以帮助您安全地修补服务器软件中的安全漏洞,确保业务操作的平稳运行。说明 本文提供的建议适用于服务器上的...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生、故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

更新故障通告

故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 problemId Long Body 否 1312 故障Id clientToken String Body 否 4361a0e1-6747-4834-96ce-0c4840fd3812 幂等校验Id ...

故障取消

RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 clientToken String Body 否 4361a0e1-6747-4834-96ce-0c4840fd3812 幂等Token 返回数据 名称 类型 示例值 描述 requestId String B81E84B5-8FD1-45F3-969A-B5067...

ECS灾备解决方案

即使其中一台ECS服务器故障或资源利用超负荷,服务仍然可以持续对外提供,从而保障业务的连续性和可用性。下图以同城两个可用区机房部署ECS集群为例,介绍ECS如何通过多可用区部署架构实现应用的高可用性和容错能力:负载均衡SLB 设备侧...

托管节点池节点自动恢复

恢复失败:当前节点无法恢复。当节点的运行状态发生变化并持续一段时间后,ACK将判定该状态符合故障状态,存在节点故障。当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点...

流水单据型业务场景多活实践

说明 这里区别于传统的解决思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦。容灾切换预期:将UserID为7000的用户切流到杭州单元,切流后该用户将路由到杭州单元,不受北京单元故障的影响。登录 ...

跨地域容灾

服务器进入反向实时复制状态时,选择 更多>故障恢复>故障恢复。在 故障恢复 面板,配置以下参数,然后单击 启动。参数名称 参数说明 实例名称 系统自动生成故障恢复后的ECS实例名称。默认可不修改。使用ECS规格 选择 使用ECS规格,则选择...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

步骤四:创建保护组

反向保护>故障恢复:将容灾站点实例切换到生产站点。由生产站点实例接替业务。反向保护>完成恢复:确认容灾恢复完成。保护组清理 不再需要该保护组,可以删除。故障演练 启动保护组故障演练。说明 保护组处于 增量复制中 或者已有恢复点...

运维事件中心的审计事件

RecoverProblem 故障恢复。RefreshIntegrationConfigKey 刷新集成Key。RemoveIntegrationConfig 解除集成配置。ReplayProblem 故障复盘。RespondIncident 事件响应。RevokeProblemRecovery 故障撤销恢复。UnbindUser 解绑用户。...

步骤四:创建保护组

反向保护>故障恢复:将容灾站点实例切换到生产站点。由生产站点实例接替业务。反向保护>完成恢复:确认容灾恢复完成。保护组清理 不再需要该保护组,可以删除。故障演练 启动保护组故障演练。说明 保护组处于 增量复制中 或者已有恢复点...

步骤四:创建保护组

反向保护>故障恢复:将容灾站点实例切换到生产站点。由生产站点实例接替业务。反向保护>完成恢复:确认容灾恢复完成。保护组清理 不再需要该保护组,可以删除。故障演练 启动保护组故障演练。说明 保护组处于 增量复制中 或者已有恢复点...

高可用性

当可用区故障恢复后,通过恢复操作,恢复被切流的可用区,并自动移除切流时补充的计算资源。从而在潜在的可用区故障情况下,实现对客户业务无感知的切换,提升服务稳定性。更多信息,请参见 部署和使用跨可用区实例。AliES内核增强 阿里云...

步骤四:创建保护组

反向保护>故障恢复:将容灾站点实例切换到生产站点。由生产站点实例接替业务。反向保护>完成恢复:确认容灾恢复完成。保护组清理 不再需要该保护组,可以删除。故障演练 启动保护组故障演练。说明 保护组处于 增量复制中 或者已有恢复点...

网络资源

DNS服务异常可能由多种原因引起,如DNS服务器故障、网络连接问题、配置错误等。DNS服务异常可能会造成域名解析失败,导致无法外部服务调用等,或导致服务不可用。常使用的容错策略如下:DNS缓存:在客户端或本地网络环境中设置DNS缓存,将...

业务连续性

借助边缘节点服务部署应用,可以让终端用户访问服务时延迟大幅降低,提升体验。但提升体验的同时,关注应用的连续性也是非常重要的。本文将介绍一些关键能力,帮助您构建高可用的边缘...因此在故障恢复后,还需要将备地域的数据同步回主地域。

什么是混合云容灾服务

故障恢复(Fail Back)当您的IDC内的环境恢复以后,将应用数据迁回自有IDC恢复应用运行的过程。RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 ...

EMR Kafka磁盘故障运维

磁盘故障恢复 当出现log directory offline、Under Replicated Partition时,需要尽快定位是否是由于磁盘故障导致的。当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群...

获取故障通知预览

UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 problemLevel String Body 否 P2 故障等级 effectServiceIds Array of Long Body ...

CentOS系统时区错误的排查思路

概述 本文主要介绍CentOS系统时区错误的排查思路。详细信息 CentOS系统时区错误,显示为UTC时区,以下为...将正常服务器/usr/share/zoneinfo/Asia/Shanghai 文件拷贝到故障服务器后,执行 date 命令,确认时区恢复正常。适用于 云服务器ECS

基础安全服务

应急漏洞不支持一键修复,您可以根据提供的修复建议,手动修复服务器上的应急漏洞。查看和处理漏洞 单击目标告警事件 操作 列下的 处理。您可以单击 操作 列下的 详情,查看告警事件的详情信息。在弹出的对话框中,选择告警事件的处理方式...

无法更换轻量应用服务器的操作系统

如果您有恢复服务器数据的需求,可以使用当前服务器对应的快照回滚磁盘数据。非中国内地地域不支持Windows Server系统和Linux系统互相切换,即Windows系统的自定义镜像无法重置Linux服务器;Linux系统的自定义镜像无法重置Windows服务器。...

解析设置类常见问题总结

服务器故障时,如何通过智能DNS实现将用户请求流量切换到正常的服务器上?答:智能解析不支持摘除故障IP和自动切换的功能。如果您需要实现此效果,建议您参阅 什么是全局流量管理?产品操作手册。如何通过API来添加解析记录?答:云解析...

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

常见问题

快照功能 轻量应用服务器提供了快照备份功能,您可以随时备份快照或者通过快照恢复服务器的云盘数据。快照备份和恢复的具体操作,请参见 管理快照。轻量应用服务器如何提供网络安全保障?轻量应用服务器通过默认的网络配置以及防火墙功能...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
轻量应用服务器 云服务器 ECS Web应用防火墙 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用