流水单据型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务下单链路案例,介绍典型的流水单据型业务场景,如何基于多活容灾...相关文档 什么故障演练 为什么需要多活容灾?

读多写少型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活容灾...相关文档 什么故障演练 为什么需要多活容灾?

什么故障

本文主要介绍什么故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

故障协同处理(基于钉钉)

本文主要介绍什么故障协同处理。云钉运维故障协同效果 功能概述 移动应用端(目前仅支持“钉钉”,以下功能说明均基于钉钉场景)支持接收故障消息提示和进行故障操作,且支持移动端操作管理故障,操作记录实时同步到 运维事件中心 控制台...

什么是应用高可用服务AHAS

应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活容灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务...更多信息,请参见 什么故障演练。

PTS压测快速入门

阿里云提供的业务高可用架构体系,为企业提供营销活动、成本控制(压测、容量规划、流量控制)、应急(开关)、容灾逃逸(架构感知、故障演练、异地多活)的解决方案。其中PTS压测作为容量规划阶段重要的环节,可模拟海量用户的真实业务...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

组复制简介

数据 强 一致性 在组复制中,事务总是先传输到集群中其他节点,然后写入Binlog文件,这保证无论主节点在什么时刻发生故障,重新启动后数据都不会比集群选出的新主节点多。旧主节点故障重启后,能够自动加回集群,拉取它缺失的Binlog,就...

重置消费位点

当消费者出现故障或者消费错误数据时,您可通过重置消费位点将消费位置回滚到之前的某个位点,重新开始消费。您也可以将消费位置移动至最新位点,暂时不处理堆积的消息。背景信息 云消息队列 RocketMQ 版 通过消费位点管理消息的消费进度。...

客户案例

而 OceanBase 提供的丰富的分区方式及 OLAP 能力有效地解决了不同场景下,业务指标的构建问题,这对于我们业务开发工作者来说可以更多的关注我需要什么样的指标,而不用考虑如何从存储系统中得到这些数据。大数据处理能力:随着阿里巴巴...

常见报错及解决方案

Q:谐云组件故障排查思路 A:elasticsearch《故障排查思路》mysql《故障排查思路》redis《故障排查思路》harbor《故障排查思路》通用排查《中间件通用故障排查思路》ingress《故障排查思路》rocketmq《故障排查思路》kafka《故障排查思路》...

ECS系统事件汇总

Canceled:因系统维护实例重新部署已取消 阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重新部署,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。重要 使用了本地SSD盘...

阿里邮箱产品服务条款

2-3-3 客户在绑定邮箱域名过程中如果存在不正当行为(例如非法占用他人拥有合法使用权的域名)的,阿里云有权采取合理措施予以纠正,包括但不限于解除错误的域名绑定等。2-4 客户理解并同意,不同规格的企业邮箱的邮箱子账号个数、邮件存储...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

数据库代理常见问题

数据库代理是什么架构,有故障切换机制吗?数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点重搭恢复任务,以确保数据库服务的...

数据库代理常见问题

目录 什么是数据库代理?通用型代理和独享型代理有什么区别?数据库代理是否占用主实例的QPS或者TPS?数据库代理地址和常规地址是否是一个地址?开通数据库代理后,实例原来的地址和只读实例的地址是否会被收回?数据库代理的内网网络类型...

网站耗资源(客户程序故障)常见问题

什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码错误严重等原因,造成服务器负载急剧上升,影响您访问网站时的正常使用。...

CLB访问日志功能简介

CLB结合阿里云日志服务提供的访问日志功能,可帮助您大幅提升日志数据分析、故障定位处理的效率。什么是CLB访问日志 CLB的访问日志功能收集了所有发送到CLB的请求的详细信息,包括请求时间、客户端IP地址、延迟、请求路径和服务器响应等。...

访问策略

什么是访问策略 访问策略包括DNS智能解析、默认地址池/备用地址池、生效地址池切换策略等相关信息,一个GTM实例可以创建多个访问策略,可为不同网络或区域来源的访问用户设置不同的解析响应地址池,并最终实现用户就近访问接入和故障自动...

常见问题

问:图数据库GDB的高可用实例支持在故障切换需要感知和注意什么吗?答:对于GDB高可用版,当主节点出现故障时,GDB会快速切换到备节点。切换过程中会出现短时间的连接闪断(切换很快,主要为主节点故障诊断和确认时间),需要用户设置好...

基于多集群实现跨地域容灾和流量负载均衡

服务网格 ASM为应用服务提供了跨地域流量分布和跨地域故障转移能力。跨地域流量分布功能可以将流量按照设定的权重路由至多个集群,实现多地域负载均衡。跨地域故障转移功能可以在某地域服务发生故障时,将该地域流量转移至其他地域,实现跨...

基于多集群实现跨地域容灾和流量负载均衡

服务网格 ASM为应用服务提供了跨地域流量分布和跨地域故障转移能力。跨地域流量分布功能可以将流量按照设定的权重路由至多个集群,实现多地域负载均衡。跨地域故障转移功能可以在某地域服务发生故障时,将该地域流量转移至其他地域,实现跨...

本地过程控制

对于自动化领域来说,近端边缘层可以对传感器数据进行处理或纠正,对传感器的故障进行预判断、预处理,完成对现场的控制和故障诊断,同时将经过修正的数据实时上传到云端进行计算,完成一个立体分层式的数据处理过程。本文中以LightSensor...

【通知】Lettuce客户端升级建议

修复与优化 Lettuce 6.3.0.RELEASE版本已修复客户端在多次请求超时后不再自动重连的问题,更多关于该问题的背景、复现方法与解决方案等信息,请参见 为什么Lettuce会带来更长的故障时间?版本建议 若依赖为Lettuce:请直接升级到6.3.0....

【通知】Lettuce客户端升级建议

修复与优化 Lettuce 6.3.0.RELEASE版本已修复客户端在多次请求超时后不再自动重连的问题,更多关于该问题的背景、复现方法与解决方案等信息,请参见 为什么Lettuce会带来更长的故障时间?版本建议 若依赖为Lettuce:请直接升级到6.3.0....

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

常见问题

Node.js 性能平台运行时与社区 Node.js 运行时是什么关系 Node.js 性能平台运行时完全兼容社区对应版本 Node.js 运行时,对应关系 请查看。Node.js 性能平台运行时是否会影响性能 Node.js 性能平台运行时每分钟在主线程将监控数据写到内存...

跟踪概览

故障诊断与运维 服务故障分析:在出现服务中断或性能下降时,可以使用跟踪日志来分析事件前后的操作,以帮助确定故障原因。配置变更追踪:记录对云资源配置的所有更改,帮助识别可能导致服务中断的配置错误。基本概念 概念 说明 跟踪 跟踪...

常见问题旧版索引

入门FAQ 方案规划 容器服务ACK中使用容器运行应用的大致流程是什么?容器服务ACK与阿里云其他产品一起使用的推荐方案是什么?如何选择容器服务ACK的集群类型?如何规划集群容量?ECS服务器怎么选型?如何选择阿里云容器镜像服务ACR个人版和...

强弱依赖治理概述

什么是强弱依赖?异常发生时,不影响核心业务流程,不影响系统可用性的依赖称作弱依赖,反之为强依赖。以商品详情页为例。商品详情页后台系统架构如下。如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候...

什么是NAT网关

NAT 网关(NAT Gateway)是一种网络地址转换服务,提供NAT代理(SNAT和DNAT)能力。阿里云NAT网关分为公网NAT网关和VPC NAT网关,公网NAT网关提供公网地址转换...相关产品 什么是专有网络 什么是弹性公网 IP 什么是共享带宽 什么是云企业网

什么是NAT网关

NAT 网关(NAT Gateway)是一种网络地址转换服务,提供NAT代理(SNAT和DNAT)能力。阿里云NAT网关分为公网NAT网关和VPC NAT网关,公网NAT网关提供公网地址转换...相关产品 什么是专有网络 什么是弹性公网 IP 什么是共享带宽 什么是云企业网

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

使用组复制

Q:为什么使用组复制要求内存大于等于8 GB?A:在开启组复制后,Xcom层中维护了一个约1 GB的Xcom Cache,用来储存Xcom message。组复制的事务认证模块会维护一个认证信息数组,占用一定的内存。组复制还会开启额外的后台线程,消耗部分内存...

GxP欧盟附录11标准合规包

16.1 为了提供支持关键过程的计算机化系统,应作出规定,确保在系统出现故障(例如手动或替代系统)时继续为这些流程提供支持。采用替代安排所需的时间应视风险而定,并适合特定系统及其所支持的业务流程。应充分记录和测试这些安排。17.1 ...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

词汇表

全局流量管理 全局流量管理GTM(Global Traffic Manager)可以帮助企业实现用户访问应用服务的就近接入、高并发负载均摊、应用服务的健康检查,并能够根据健康检查结果实现故障隔离或流量切换,方便企业灵活快速地构建同城多活和异地容灾...
共有100条 < 1 2 3 4 ... 100 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 云数据库 OceanBase 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用