海量数据读写 随着业务的快速增长,数据量不断的增大,就会出现单表/单库数据量太大、单台数据库服务器压力很大、读写速度遇到瓶颈等一系列问题。尽管可以通过增大数据库实例的物理配置得到一定程度的缓解,但无法根本解决数据库单机瓶颈。...
容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...
本文汇总了Lindorm实例在扩缩容、升降配、实例重启、版本升级等实例运维场景中的常见问题,包括但不限于操作耗时、业务影响及费用说明,帮助您快速了解运维操作中的相关细节和注意事项。问题导览 扩容、升配、服务开通 实例扩容节点需要...
当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...
为什么同一应用的发布单不支持并行 弹性场景 在 SAE 应用的发布、扩缩容场景下需要禁用弹性规则,否则会出现一系列不可预期的问题。如果此时有多个发布单并行,就会出现A发布单禁用了弹性,在A发布单未完结之前,B发布单又启动了弹性的情况...
当节点出现故障时,自愈系统会自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD会修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...
由于离线扩容需要重启(或启动)实例才能生效,如果您的业务不允许重启(或启动)实例但在扩容云盘时选择了离线扩容的方式,则您可以在离线扩容后再次选用在线扩容的方式,在保持实例正常运行的状态下使之前离线扩容效果生效。但再次扩容也...
有损演练是指直接在线上真实业务环境注入异常进行演练,演练模拟的真实有效性高,为了平衡业务影响一般会选择最核心场景、在业务最低峰期做演练,而且演练频次相对较小,例如为了验证多活容灾能力的机房断网演练,一般是一个月一次的演练...
容灾恢复场景 当主盘出现故障时,您可以通过故障切换功能完成主备站点的切换。故障切换会断开复制链路,通过云盘挂载将业务切换到容灾系统上。跨地域迁移业务场景 如果有业务数据需要跨地域迁移时,您无需通过镜像或者快照的数据复制功能...
扩容后分区会执行负载均衡,部分分区会转移到新节点,单个分区转移过程中会有短暂不可用(正常200ms内),如果客户端配置了重试(默认开启)一般都会重试成功。但如果客户端的超时时间设置的比较短则可能出现请求报错现象。磁盘扩容 可以对...
本文汇总了使用多活容灾时的常见问题。MSHA基础常见问题 什么是...同城多活单元格流量切零后,企业版RocketMQ的ons.log中为什么会出现日志brokerName=msha_mock_queueBrokerName?异地多活如何查看MSHA-agent是否从HTTP流量中提取出了路由标?
数据盘扩容会自动扣款,如果余额不足,则扩容流程会中断。进入集群详情页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 集群管理 页签。在 集群管理 页面,单击相应集群所在行的 详情。在...
此类问题一般可以通过开启集群的thread_pool特性进行流控缓解,具体请参见 Thread Pool。如果活跃线程有所缓解,同时还要注意应用侧是否已经产生了业务堆积,如果CPU负载较高同时活跃线程依然高居不下,此时则同样要考虑是不是对集群进行扩...
在数据中心或服务器出现故障或灾难时,能够快速恢复数据并保持业务的正常运行,可以最大程度地减少因数据丢失或损毁而对企业造成的影响;数据容灾可以提高企业的安全性和可信度。对于一些重要的数据和业务,通过实施数据容灾措施,可以保障...
混合云容灾服务充分利用了公共云资源,极大简化了灾备中心的软硬件准备与运维工作,让您可以只专注...回切至本地VMware 利用阿里云连续复制型容灾(CDR)服务,在本地虚拟机出现问题后把云上恢复出来的ECS回切至云下VMware环境或本地物理机。
阿里云提供的业务高可用架构体系,为企业提供营销活动、成本控制(压测、容量规划、流量控制)、应急(开关)、容灾逃逸(架构感知、故障演练、异地多活)的解决方案。其中PTS压测作为容量规划阶段重要的环节,可模拟海量用户的真实业务...
背景信息 传统的Flink参数更新方式需要重新启动作业,可能会出现业务中断、数据回追延迟和资源占用高峰等问题,导致作业停止时间变长,影响业务连续性。动态更新参数功能通过REST请求发送至运行中的作业,它允许作业复用现有的JobManager和...
如果选择自定义镜像,则该自定义镜像必须是基于计算节点创建而成,以登录节点或管理节点创建的自定义镜像,扩容时会出现异常。是否需要公网IP 若扩容节点需要访问公网,则可打开公网IP开关,并选择带宽计费方式和出带宽最大值。弹性RDMA...
混合云集群支持扩容,当业务发展导致集群计算节点不足时,您可以根据实际需求扩容集群,增加计算节点。前提条件 扩容节点所在地域有可用交换机,关于如何创建交换机,请参见 创建交换机。扩容节点所在地域有足够的ECS实例配额,具体操作,...
当出现这些故障时,如果用户业务部署在单个地区,那么就会因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务实时增量同步主库数据以确保主库与灾备库数据的完全一致,当业务中心发生地区...
本文介绍在伸缩配置中设置实例名称或主机名称的规则,以便扩容时为扩容的ECS实例生成有序且唯一的实例名称或主机名称,有助于您更好地管理ECS实例。背景信息 根据伸缩规则,伸缩组支持一次扩容一台或者多台ECS实例,也可以多次扩容生成多台...
当您创建并启动一致性复制组后,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行容灾恢复。本文主要介绍如何通过一致性复制组进行容灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...
1.创建容灾预案 指用户创建一个容灾预案,可用于日常做容灾演练,或在应用服务出现故障时实现快速切换流量。2.容灾预案名称 指用户可以为创建的容灾预案输入一个易识别的名称,例如“故障演练测试”3.容灾预案备注 您可以根据创建的容灾...
常见问题 Q:云盘版RDS MySQL实例存储空间手动缩容一般闪断多久?A:会造成30秒的闪断。闪断过程中,与数据库、账号、网络等相关的大部分操作都无法执行,请尽量在业务低峰期执行缩容操作。请确保应用具备重连机制,重连机制需要在您的应用...
常见问题 Q:云盘版RDS MySQL实例存储空间手动缩容一般闪断多久?A:会造成30秒的闪断。闪断过程中,与数据库、账号、网络等相关的大部分操作都无法执行,请尽量在业务低峰期执行缩容操作。请确保应用具备重连机制,重连机制需要在您的应用...
当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...
为了应对业务的不断变化,当您需要调整 云数据库ClickHouse 社区兼容版 集群的配置或规模时,您可以对 云数据库ClickHouse 进行垂直变配和水平扩缩容操作,以帮助您的业务在成本与性能之间达到最佳平衡。前提条件 集群没有正在进行的配置...
缩容会出现短暂业务闪断。本地盘:会出现短暂业务闪断。计费规则 请参见 变配的计费规则。注意事项 由于基础系列只有一个数据库节点,没有备节点作为热备份,因此当该节点意外宕机或者执行变更配置、版本升级等任务时,会出现较长时间的不...
异地容灾 如果业务部署在多个地域,可以通过在多个地域创建主备实例,实现跨地域的数据库高可用,当一个地域出现故障时,只需要将业务手动切换到备实例即可。说明 主备实例切换耗时约 5 分钟,切换过程中,可能会出现链接闪断。建议在业务...
为您介绍增删节点的操作和注意事项,您可通过增删节点实现实例扩缩容。背景信息 OceanBase 数据库的弹性扩容能力相比于传统数据库具有明显的架构优势。传统数据库的数据存放于一台机器上,而 OceanBase 数据库能够把数据打散到不同机器,...
它是将物理服务器部署在不同的可用区,当一个可用区出现故障时流量可以在短时间内切换到另一个可用区。整个切换过程对用户透明,应用代码无需变更。重要 发生主备切换时应用到实例的连接会断开,需要应用重新连接实例。迁移可用区请参见 ...
它是将物理服务器部署在不同的可用区,当一个可用区出现故障时流量可以在短时间内切换到另一个可用区。整个切换过程对用户透明,应用代码无需变更。重要 发生主备切换时应用到实例的连接会断开,需要应用重新连接实例。迁移可用区请参见 ...
它是将物理服务器部署在不同的可用区,当一个可用区出现故障时流量可以在短时间内切换到另一个可用区。整个切换过程对用户透明,应用代码无需变更。重要 发生主备切换时应用到实例的连接会断开,需要应用重新连接实例。迁移可用区请参见 ...
何时选择扩容 对于在线交易类业务,一般推荐日常负载不超过水位线的30%,以应付突发的一些流量(例如促销、甚至业务代码出现BUG等)。业务应该根据自己的业务特点(例如是否有周期性波动,是否有大促等)来对安全水位线进行调整。CN的负载...
全局流量管理支持IP地址健康检查功能,并会根据健康检查的结果,来判断运营商IP地址是否出现故障,如果出现故障,则会将域名解析切换到备份的运营商IP上,并最终帮用户实现自动故障转移的功效。请参阅 GTM实现跨网访问加速与故障切换 操作...
当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...
一般会将新版本的实例规格和数量与旧版本保持一致。当新版本服务验证通过后,将业务流量全部切至新版本。旧版本作为热备。如新版本上线后出现问题,可将流量全部切回至旧版本完成回滚,缩短故障恢复时间。A/B测试:通过用户请求的元信息将...
随着业务发展和应用数据增长,当云盘使用空间不足时,您可以通过云盘扩容来解决磁盘容量不足的问题。本文介绍云盘扩容的扩容场景和扩容计费。扩容场景 云盘数据卷扩容包括云盘扩容和文件系统扩容两部分。扩容云盘存储空间:需要在云盘控制...
修复实例分时扩容表RENAME后会出现数据未重新分布的问题。修复创建带有GROUP BY和UNIONALL的实时物化视图场景下,执行INSERT时出现Coredump的问题。修复DROP TABLE报错 cache lookup failed for extension 18713194 的问题。修复向量...
如果自有 IDC 内应用出现难以恢复的故障时,您可以在阿里云上启动容灾恢复网关,快速在 ECS 上恢复应用服务器运行,使应用迅速重新上线,极大减少业务损失。平时,您还可以方便地进行容灾演练,确保真实故障发生时恢复流程顺畅,保证容灾...