设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者...故障复盘与改进措施 故障复盘信息同步,在故障结束,对故障原因责任人等进行定位与定责。对故障进行复盘,需针对此次故障件进行针对性的改进,避免后续再次发生此类故障。

配置健康检查

在云企业网和本地数据中心存在冗余路由的场景下,健康检查探测到物理专线故障后支持自动切换到可用路由,保障流量传输不中断。背景信息 工作原理 在您为VBR实例配置健康检查,阿里云默认每隔2秒从每个健康检查源IP地址向本地数据中心的...

步骤七:故障切换

保护组进入增量复制状态,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止再进行最后一轮数据同步,等待数据同步...

大数据实时计算性能调优服务

如果项目范围发生调整,双方应依照本工作说明书附件一《项目变更流程与项目变更控制申请单》中规定的程序评估对项目价款、计划和工作量的影响,并在签署《项目变更控制申请单》实施变更。2.项目计划、实施方法与内容 根据项目目标、范围...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

变更管理

如果变更管理运行良好,可以让组织的工作方式更接近标准的行为准则、规划组织的流程机制、加强变更操作的规范性、降低变更导致的故障数量,同时极大的提升业务运行的稳定性。变更管理是任何系统稳定运行的重要环节之一。它需要具备以下特质...

资源使用优化

重新评估公网出口的规划设计,推荐使用NAT网关等服务做网络出入流量的统一管理并持续监控网络流量的使用,实时监控网络流量和费用,防止突发的人为或者意外的大规模数据传输而导致成本的飙升。数据库服务优化分析 用好数据库服务提供的工具...

数据类云产品专家服务

数据库问题专家诊断与调优 阿里云数据库专家结合丰富的云上实战经验和最佳实践,结合各项数据库指标,以及前后端的日志及各项应用指标,分析客户反馈的数据库所需分析诊断的问题点或故障,排查确定数据库问题的根本原因,提供针对性的解决...

排查PostgreSQL WAL日志堆积

其他原因 对于RDS PostgreSQL实例,如果上述排查仍未解决WAL堆积的问题,可联系RDS PostgreSQL技术支持进行解决。相关文档 RDS PostgreSQL实例,您还可以通过手动删除非活跃的Replication Slot来让RDS PostgreSQL内核自动清理WAL日志。...

附录:SOFAStack 产品目录

分布式链路跟踪 分布式链路跟踪(Distributed System Tracing,简称 DST)是一款面向分布式架构、微服务架构和云原生架构的应用可观察性的金融级解决方案,帮助用户厘清应用间复杂的调用关系,迅速定位故障或者缓慢节点。产品架构 产品优势...

云卓越架构服务内容说明

业务稳定:评估系统的可靠性,并提供故障转移、备份和恢复等方面的建议,以确保系统在任何情况下均能保持稳定运行。卓越运营:评估企业架构的运营管理现状,通过提供自动化、监控、持续交付等方面的建议来帮助企业建立高效的运营流程与管理...

专家成长计划服务内容说明

专家成长计划指在客户购买阿里云专家服务项目并在合同签署完成,由阿里云专家服务团队为最终客户提供的一系列旨在提升客户技术能力,掌握阿里云云产品理念、原理和操作方式,针对专业技术人员遇到的技术问题进行方案定制,提供云上运维及...

集群负载不均问题的分析方法及解决方案

导致阿里云Elasticsearch(简称ES)的负载不均问题的原因很多,目前主要包括shard设置不合理、segment大小不均、冷热数据需求、负载均衡及多可用区架构部署的长连接不释放等。本文介绍ES集群负载不均问题的分析方法及解决方案。问题现象 ...

大数据上云及巡检服务内容说明

以解决客户耍得的大数据产品配置不合理、资源利用率不高、架构可用性隐患、生产任务频繁故障,无法提前感知等痛点。服务注意事项如下:声明本服务支持产品范围为:开源EMR 阿里云EMR 阿里云Maxcompute/Dataworks/Hologress 不在以上范围内...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

什么是用户体验监控

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

查看ECS实例的操作记录

如果您在使用ECS实例的过程中遇到故障,可以通过查看ECS实例的操作记录识别可能的故障原因。背景信息 操作记录 以ECS实例为入口,对实例及其关联资源的所有操作进行操作审计,并且对操作记录的影响等级进行标注,在众多操作记录中高亮出...

云盘三副本技术

重要 如果ECS实例由于病毒感染、人为误删除或黑客入侵等软故障原因造成数据丢失,需要您采用备份或者快照等技术手段来解决。任何技术都不可能解决全部问题,因地制宜地选择合适的数据保护措施,才能为您的业务数据筑起一道坚实的防线。更多...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作是...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

实例的节点故障处理机制

副本集架构 副本集实例提供多个节点供用户访问,当其中的某个节点发生故障后,系统会使用Secondary节点或隐藏节点替换故障节点继续提供服务,并对故障节点进行检查与修复。该过程对用户完全透明,可能会产生1次30秒内的连接闪断,建议您在...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

迁移

当单击 开始兼容性评估 评估迁移工具将开始评估源库和目标库的兼容性情况。若存在未通过的SQL,您可根据 PolarDB-X 2.0的 SQL语法说明 进行SQL改造。您也可先进行下一步,然后在迁移开始并校验完成后,对相关SQL进行改造。步骤3:预...

分组评估

重要 设置分组评估后,单次评估产生的告警分组最多为100个分组。超过100个分组时,会随机取其中100个发送到告警策略。选择分组评估字段时,请选择具备标识监控实体特征的字段,字段的值可枚举。请勿选择不具备区分监控实体特征的字段。使用...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

权限设置

说明 权限开启,访问数据将会进行权限校验,请提前做好业务评估后再开启权限。开启权限影响如下:DLF的元数据管理,数据探索功能将会受到权限控制,如用户未被授予权限,则无法访问对应元数据和数据。E-MapReduce中如同时开启引擎(如...

应用场景

当其中一部分ECS实例发生故障后,CLB 会自动屏蔽故障的ECS实例,将请求分发给正常运行的ECS实例,保证应用系统仍能正常工作。同城容灾(多可用区容灾)为了提供更加稳定可靠的 CLB 服务,CLB 已在各地域部署了多可用区以实现同地域容灾。当...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行容灾恢复。本文主要介绍如何通过一致性复制组进行容灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...

配置快速倒换组

您可以将2个VBR配置为一个快速倒换组,当BFD(Bidirectional Forwarding Detection)探测到链路故障后,流量自动从故障链路的VBR快速切换到备份VBR,完成亚秒级切换,加快路由收敛,实现业务平滑过渡。使用限制 只有开启BFD功能的VBR可以...

新版使用限制

若您的业务比较重要,请提前做好评估后对迁移任务设置限速,或在空闲时间启动迁移任务。当源站为第三方源,读取源站数据带宽受限时,请联系源站存储提供商请求更大的带宽。当目的端OSS有其他业务运行中,为防止影响业务带宽,请您在创建...

在告警通知中引用日志内容

分组评估:设置分组评估后,分组评估的字段会自动添加到labels信息中。更多信息,请参见 分组评估。注意 选择分组评估字段时,请选择具备标识监控实体特征的字段,字段的值可枚举。请勿选择不具备区分监控实体特征的字段。使用这些字段会...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...
共有163条 < 1 2 3 4 ... 163 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 云数据库 OceanBase 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用