故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

托管节点池节点自动恢复

当节点的运行状态发生变化并持续一段时间,ACK将判定该状态符合故障状态,存在节点故障。当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成故障状态解除,节点恢复正常状态。当恢复任务完成...

设计方案

基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。单节点实例 由于单节点实例架构的特殊性,单节点实例仅拥有一个节点。当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行容灾恢复。本文主要介绍如何通过一致性复制组进行容灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...

智能压测

面对即将到来的短期业务高峰或数据库结构变更(尤其是索引变更)时,您可以通过智能压测功能,确认数据库实例规格是否需要扩容,并验证在真实业务场景下的实际效果,降低上线引发故障的风险。此外,在数据库发生故障且无法定位原因时,...

流量回放和压测

面对即将到来的短期业务高峰或数据库结构变更(尤其是索引变更)时,您可以通过流量回访与压测功能,确认数据库实例规格是否需要扩容,并验证在真实业务场景下的实际效果,降低上线引发故障的风险。此外,在数据库发生故障且无法定位原因...

应用场景

当其中一部分ECS实例发生故障后,CLB 会自动屏蔽故障的ECS实例,将请求分发给正常运行的ECS实例,保证应用系统仍能正常工作。同城容灾(多可用区容灾)为了提供更加稳定可靠的 CLB 服务,CLB 已在各地域部署了多可用区以实现同地域容灾。当...

单实例快速恢复

为了能够快速恢复系统故障,Hologres提供了单实例快速恢复的机制。本文为您介绍单实例快速恢复的触发条件和行为。实例快速恢复逻辑说明 Hologres在 V2.0版本之前,Hologres计算节点均为容器调度(即下图中的Worker Node),资源管理器...

灾备方案

同城容灾方案★主备节点分别部署在同一地域下两个不同的可用区,当任一可用区因电力、网络等不可抗因素失去通信时,高可用HA系统将执行故障切换,确保整个实例的持续可用。跨地域容灾方案★由多个子实例构成全球分布式实例,所有子实例通过...

灾备方案介绍

同城容灾方案★主备节点分别部署在同一地域下两个不同的可用区,当任一可用区因电力、网络等不可抗因素失去通信时,高可用HA系统将执行故障切换,确保整个实例的持续可用。跨地域容灾方案★由多个子实例构成全球分布式实例,所有子实例通过...

基于MSE云原生网关实现同城多活

在同城多活的场景下,能够确保对跨可用区的多个业务集群的请求实现高效负载均衡分配,在单个可用区内的业务集群发生故障时,可在1秒内完成故障节点的自动摘除从而实现故障转移,有效的保障服务连续性和高可用性。容灾概述 目前云上容灾主要...

集群版-单副本

纯缓存应用 单副本集群版的分片服务器由单节点组成,分片服务器某节点出现故障时,系统会重新拉起一个Redis进程(没有数据),当节点故障业务自动切换完成,数据将会丢失,有可能流量被冲击到端数据库,需要做好应用程序的预热保护机制...

Tair选型指南

同城容灾方案★主从节点分别部署在同一地域下两个不同的可用区,当任一可用区因电力、网络等不可抗因素失去通信时,高可用HA系统将执行故障切换,确保整个实例的持续可用。跨地域容灾方案★由多个子实例构成全球分布式实例,所有子实例通过...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

ECS服务器的外网地址ping不通的排查方法

Windows系统:具体操作请参见 Windows实例ping外网地址提示“一般故障”。运营商问题:检查运营商是否存在网络问题,如公网运营商链路中断,路由震荡等。具体操作请参见 使用ping命令丢包或不通时的链路测试方法。相关文档 ECS实例间ping...

采集ping和tcping数据

本文介绍通过Logtail采集ping和tcping数据到日志服务Metricstore的操作步骤。前提条件 已创建Project和MetricStore。具体操作,请参见 创建Project 和 创建MetricStore。使用限制 只有Linux Logtail 1.0.31及以上版本的Logtail支持采集ping...

功能概览

支持的容灾场景 容灾场景 支持类型 故障切换 数据同步切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止再进行最后一轮数据同步,等待数据同步完成再启动切换。这样可以保证容灾端与生产端数据完全一致,...

功能概览

支持的容灾场景 容灾场景 支持类型 故障切换 数据同步切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止再进行最后一轮数据同步,等待数据同步完成再启动切换。这样可以保证容灾端与生产端数据完全一致,...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

配置DDoS高防无法Ping

本文主要介绍配置DDoS高防无法Ping通的解决方法。适用于 云安全防御 详细信息 确认DDoS高防实例的状态。如果DDoS高防实例处于黑洞状态,则无法被外网访问。您可以在 DDoS高防控制台 的 实例管理 页面,查询DDoS高防实例的 实例状态。确认...

故障演练

故障演练能力是ADP基于阿里云故障演练产品AHAS提供的一项能力,在线上集成环节即可对线下交付中常见的各类故障场景下产品编排的容错性、可靠性和可恢复性进行演练,保障编排稳定可靠。在进行故障演练之前,需要进行以下步骤:创建产品;...

HaaS 510开板式DTU

HaaS 510产品同JS脚本的方式,将模组的本地串口通信及通过4G连接云端平台的能力开放给用户,同时提供编写本地业务逻辑的能力,可以针对不同的应用场景,在设备侧完成数据清洗和简单的控制功能。规格 串口 数量:2路,1路用户串口,1路debug...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘故障都能对业务连续性形成改进,避免历史同类故障重复发生。

应用场景

故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘故障都能对业务连续性形成改进。其他应用场景 降低管理难度:同时维护多套监控系统,操作成本高,降低管理难度。规避报警风暴:单监控源的报警不能...

部署初始化

请输入:用户名:owner 密码:changepassword 登录成功显示下面的界面:输入命令:ls/etc/sysconfig/network-scripts 上面示例,显示有6个网卡配置文件(ifcfg-enp61s0f0、ifcfg-enp61s0f1、ifcfg-enp95s0f0、ifcfg-enp95s0f1、ifcfg-...

查看日志

串口终端 配置完串口后串口终端会自动打开,在串口终端里可以查看系统日志,或者输入命令跟系统进行交互。串口配置文件:串口配置信息会存储在项目的.vscode/settings.json文件中。下次打开串口的时候会默认使用这里的配置信息,当串口号...

设置宕机自动迁移

为了降低物理故障对业务的影响,阿里云为您提供专有宿主机DDH宕机自动迁移的功能。本章节介绍在创建DDH如何开启或者关闭宕机自动迁移。背景信息 宕机自动迁移开启,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启宕机自动迁移...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生,可以...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

同城多活架构实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复判断业务的实际恢复情况。演练预期:电商首页展示的查询链路对商品应用是强依赖,强依赖故障将导致业务不可用,且故障的...

Node演练场景

Kubernetes集群中Node资源故障场景,包含CPU、网络和进程等基础资源类演练场景。每个Node场景下都包含通用的Node筛选参数,用于查找目标Node。通用参数说明 参数名称 参数说明 节点名称 节点资源名,选择多个节点资源时资源名之间使用逗号...

业务连续性

在主地域故障消除,应该将备地域服务在故障期间记录的新增数据同步到主地域,确保主地域恢复时,用户看到的业务数据不会丢失。部署架构示意图 为了尽可能地提升可用性以确保业务连续不中断,上述实践是可以组合使用的。下图是一个同时...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

如何配置流转规则

选择 触发故障 需要配置故障影响服务、故障等级覆盖。配置完成之后点击 提交即可。仅触发报警:确定 报警触发规则:设置触发的持续时长和次数对报警进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发报警,只要将时长和次数分别设置...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网无线连接服务 短信服务 边缘网络加速 负载均衡 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用