设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先业务客户之间所约定的服务级别...

功能特性

创建实例 自动切换 在实例主节点发生故障时将自动切换,实现实例的故障自愈,切换通常需要30秒左右完成。主备切换 全量备份全量恢复 对当前实例通过内存快照方式对全量数据进行备份并保存在云存储中,可通过全量恢复将数据恢复至备份时。...

归档存储服务等级协议

赔偿方案 阿里云对用户存在故障的每个Archive按不可用时间的100倍赔偿,即赔付金额=发生故障的Archive故障前24小时平均每分钟费用×不可用时间×100倍;其中:(1)赔偿只针对使用归档存储服务已产生费用的用户,以归档存储代金券的形式赔偿,...

基于Kubernetes容器集群的容灾架构方案

备份恢复(Backup-Restore)如上图所示,在备份恢复模式下,系统运行时会备份应用和数据,故障或灾难发生时,系统会将备份的应用和数据在另一地点进行恢复,并切换业务流量。由于数据无法实时备份,在恢复数据时会有一定的数据丢失,...

功能特性

查询管理与分析 用户和权限管理 通过用户管理功能,您可以对数据库进行用户权限控制,这样可以确保只有授权的用户能够管理相关的数据库。管理用户及数据授权 元数据管理 元数据管理功能主要为您展示当前实例的所有数据库,数据表,分区及...

数据管理服务协议

您理解并认可,阿里云将为您提供基于某些服务的安全防护(如“云盾安骑士服务”)以及管理与监控的相关功能及服务(如“云监控”),尽管阿里云对该等服务经过详细的测试,但并不能保证其与所有的软硬件系统完全兼容,亦不能保证其软件及...

事件管理

持续改进学习 运维事件中心是阿里云提供的云上事件管理服务。通过集成监控源告警数据,并按照规则条件分派预通知的,都可以被称之为事件。事件比报警优先级更高,将强调分派到具体责任人,并持续跟进解决、归档记录。事件主要用于管理...

附录:SOFAStack 产品目录

高可靠的轻量级配置中心 提供应用运行时动态修改配置的服务,并提供图形化的集中化管理界面。多活数据中心 支持同城双活/异地多活架构,具备异地容灾能力,保障系统的可用性。应用场景 传统应用微服务改造 通过微服务产品将传统金融业务...

什么是混合云容灾服务

混合云容灾HDR(Hybrid Disaster Recovery)是一个为数据中心提供企业级应用的本地备份云上容灾一体化的服务。可以为本地数据中心以及阿里云上面的企业关键业务提供低至秒级RPO和分钟级RTO的容灾服务,有效保障数据安全和业务连续性。解决...

名词解释

这种模式下,两个城市的三个数据中心互联互通,如果⼀个数据中心发生故障或灾难,其他数据中心可以正常运行并对关键业务或全部业务实现接管。命名空间 多活命名空间MSHA Namespace,是一个逻辑租户的概念,用于进行租户粒度的管控配置和云...

灾备规划

稳定的异地备份确保关键数据在本地数据中心发生火灾等极端情况下不丢失,在本地设施修复后恢复至本地。云上容灾 为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用...

GTM如何实现同城容灾

创建1个全局访问策略,解析请求流量 选择 全局,主地址池集合 选择「业务中心01」地址池和「业务中心02」地址池,负载均衡策略 选择 返回全部地址,此设置可实现两个数据中心同时提供服务和发生故障时系统自动摘除故障地址的效果。...

基本概念

变更中心 业务开通场景管理中心,以自动化模板为原子操作的网络变更编排引擎,所有业务无论配置开通、例行维护还是故障自恢复都能使用方案通过工单的方式简单执行,支持人工步骤、自动步骤任意组合控制工单逻辑的流转执行。自动化模板 ...

设计方案

变更设计原则 在企业的运维管理与运行过程中,就会有变更产生。变更是指添加、修改或删除任何可能对服务产生直接或间接影响的内容。当变更失败时可能会带来严重后果:业务中断、客户舆情等等一系列问题。为了降低变更带来的业务风险,需要...

客户案例

唐家才 网商银行 CTO“网商银行选择 OceanBase 三地五中心部署架构,不仅在数据上从具备抵御同城机房故障提升到具备异地城市容灾的能力,同时内置的多租户隔离的能力,满足全行多应用系统的管理与使用需求,让应用系统多活架构设计上变的...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

变更管理

通过不同的对比、展示方式,可以分析问题、事件等产生的原因,以助于后续的知识管理与沉淀。可针对不同的问题类型,作出快速应急方案。使用变更改进技术流程,从而不断增强组织提供更好的服务能力。运维事件中心是阿里云提供的云上变更管理...

网络架构容灾

则正常请求下,则海外用户访问Singapore中心发生故障后会快速切换至CN-Hangzhou中心。CNAME接入配置:需要将用户访问的主域名CNAME至全局流量管理的实例域名,才能最终实现对应用服务进行容灾、智能接入。即将图中的...

产品简介

事件中心 统一的报警、事件、故障任务流转处理 事件中心是统一的任务流转中心,统一管理整个企业业务系统运行过程中的所有报警、事件、故障管理系统历史的所有报警记录、报警消息及时通知订阅对象,帮助企业实时发现问题,规避风险;管理...

集群高可用架构推荐配置

多可用区的地域:所有托管组件均严格采用多副本、多AZ均衡打散部署策略,确保在单个可用区或节点发生故障时,集群仍然能够正常提供服务。单可用区地域:所有托管组件均严格采用多副本、多节点打散部署策略,确保在单个节点发生故障时,集群...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

强弱依赖治理最佳实践

通过以上业务依赖的预判可以得出以下结论:前端对商品推荐服务预判为弱依赖,表示当推荐服务发生故障时前端正常访问不应该受阻。在购物链路中,商品服务product对商品数据库product-mysql预判为强依赖。表示如果扣减库存失败,则应该阻断下...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:在左侧导航栏,选择 连续复制型容灾>云上容灾。在页面右上角,选择容灾站点对。单击容灾中心的 受保护服务器 页签。单击...

什么是容器服务 Kubernetes 版

应用中心:应用部署后,以统一的视角展现整体应用的拓扑结构,同时对于持续部署等场景进行统一的版本管理与回滚。应用备份和恢复:支持对Kubernetes应用进行备份和恢复。更多信息,请参见 集群内备份和恢复应用。Knative:一款基于...

跟踪概览

跟踪是一种重要的配置机制,您可以使用跟踪功能,将云服务中发生的事件保存到指定的OSS存储空间或SLS Logstore中,以便后期分析和长期存储。操作审计仅默认为每个阿里云账号记录最近90天的事件,您必须创建跟踪才能记录更长时间的事件,...

分配辅助私网IP地址

故障转移场景:当实例发生故障时,您可以将辅助弹性网卡从故障实例解绑并绑定至备用实例,通过其辅助私网IP访问的请求流量也随之切换到备用实例,实现故障转移。负载均衡场景:通过为实例分配多个辅助私网IP地址,可以实现负载均衡机制,将...

产品架构介绍

多活架构下的容灾场景管理与切流。接入层 接入层是机房的流量入口,常见实现是流量网关。MSHA当前提供一个基于Tengine的流量网关实现,简称MSFE,需要在租户侧ECS上搭建集群,其他流量网关产品正在计划中支持。接入层功能可以概括为以下几...

功能特性

云虚拟主机 功能集 功能 功能描述 参考文档 购买主机 购买和初始化云虚拟主机 云虚拟主机预装了常见网站开发语言的运行环境、数据库及管理工具,您可以根据网站程序的开发环境、访问规模以及数据量等建站规划,购买适合的云虚拟主机来简单...

ACK集群概述

应用中心:应用部署后,以统一的视角展现整体应用的拓扑结构,同时对于持续部署等场景进行统一的版本管理与回滚。应用备份和恢复:支持对Kubernetes应用进行备份和恢复。更多信息,请参见 集群内备份和恢复应用。存储 存储插件:支持CSI...

MongoDB 4.0

实例管理 功能 通用型云盘版 功能影响及建议 创建单节点实例 单节点实例的故障恢复时间较长,无SLA保障。变更单节点实例配置 变更配置的完成时间多种因素(如网络、任务队列、数量大小)有关,建议您在业务低峰期执行变配操作,并确保您...

工作负载安全保护

运行时防护 工作负载运行时防护是对服务器、容器等环境在可能暴露的前提下,提供运行时保护,起到事中防御的效果。运行时防护通常是通过部署在服务器、容器环境内的安全agent,对服务器和容器进行保护。提供了威胁检测、威胁分析和威胁响应...

托管节点池概述

如果您希望将节点进行分组纳管,同时降低节点的运维负担,例如操作系统(OS)CVE漏洞自动修复、kubelet自动升级、节点故障时重启节点等,您可以启用托管节点池。托管节点池是ACK推出的自动化运维型节点池,在普通节点池的基础上支持多种...

名词解释

配置管理 在数据中心中,系统中所有配置的编辑、存储、分发、变更管理、历史版本管理、变更审计等所有配置相关的活动统称为配置管理。配置推送 配置管理中,常需要配置管理系统将配置的变更分发到相关的系统,从分发到配置生效的过程称为...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

通过一致性复制组实现容灾恢复

当生产站点发生故障时,将开启读写权限的容灾站点中云盘挂载到临时创建的ECS实例上继续运行业务,直到生产站点故障修复完成。警告 故障切换功能会暂停异步复制功能,您需要确保您的生产站点发生故障时再使用故障切换功能,避免数据丢失。...

2024-03-13版本

当单个可用区发生故障时,Flink作业能够在另外一个可用区正常运行,从而有效避免因单个可用区故障导致服务中断,确保作业的持续性和高可用性。同城高可用 开通实时计算Flink版 资源调整 管理项目空间 修改虚拟交换机 算子探查(公测)支持...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云安全中心 轻量应用服务器 商标服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用