系统故障排查

概述 本文主要介绍使用阿里云服务器ECS时的系统故障排查,包含CPU、磁盘I/O、内存、硬盘、带宽资源占用异常的问题排查与定位。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,...

挂载文件系统失败故障排查

使用NFS v3协议挂载文件系统:sudo mount-t nfs-o vers=3,nolock,proto=tcp,rsize=1048576,wsize=1048576,hard,timeo=600,retrans=2,noresvport file-system-id.region.nas.aliyuncs.com:/ /mnt 使用NFS v4协议挂载文件系统:sudo mount-t ...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,分钟级的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障

ECS整机恢复

通过克隆恢复整机 发生系统故障或错误操作时,您可以使用备份点克隆方式,实现ECS整机应用的版本回退。登录 云备份Cloud Backup控制台。在左侧导航栏,选择 备份>ECS整机备份。在顶部菜单栏左上角,选择所在地域。在 已备份的ECS 页签,...

云盘恢复

恢复原盘 当ECS挂载的云盘发生系统故障或错误操作时,您可以使用已备份的资源进行原盘恢复,实现ECS云盘恢复。登录 云备份Cloud Backup控制台。在左侧导航栏,选择 备份>ECS整机备份。在顶部菜单栏左上角,选择所在地域。单击 已备份的ECS ...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

云盘恢复

恢复原盘 当ECS挂载的云盘发生系统故障或错误操作时,您可以使用已备份的资源进行原盘恢复,实现ECS云盘恢复。登录 云备份Cloud Backup控制台。在左侧导航栏,选择 备份>云盘备份。在顶部菜单栏左上角,选择所在地域。单击 已保护的云盘 页...

单实例快速恢复

为了能够快速恢复系统故障,Hologres提供了单实例快速恢复的机制。本文为您介绍单实例快速恢复的触发条件和行为。实例快速恢复逻辑说明 Hologres在 V2.0版本之前,Hologres计算节点均为容器调度(即下图中的Worker Node),资源管理器...

捷顺

DAS服务自动SQL限流和自动SQL调优,帮助DBA从救火员转向数据库架构师,有更多时间和精力帮助研发优化系统架构,审核数据库的变更和各种操作,进一步降低系统故障的概率。DAS服务自动对数据库实例进行治理,帮助捷顺科技把数据库的运维成本...

概述

优势 容灾备份,降低业务中断风险 主DNS系统故障,辅助DNS可继续提供域名解析服务,保障业务可用性。稳定可靠,保障业务稳定运行 云解析DNS提供100%SLA服务,全球DNS集群互相备份,服务永不宕机。全球节点,提升域名解析效率 节点遍布全球...

备份和恢复数据

当出现系统故障或错误操作时,如果在此之前已经创建了快照,您可以使用该快照恢复数据。本文以Windows客户端为例,为您介绍如何利用系统快照和自定义快照备份和恢复数据。背景信息 自定义快照:您可以根据业务需要在某一时间点创建快照,...

功能概览

生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。更多信息,请参见 跨地域容灾。跨可用区容灾 当生产站点因为不可抗力因素(比如机房...

跨地域容灾

生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。准备工作 在实现跨地域容灾之前,您需要选择一个不同于生产环境的地域作为容灾目标地域...

跨地域容灾

生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。本文介绍跨地域容灾的操作步骤。前提条件 在实现跨地域容灾之前,您需要选择一个不同于...

部署数据库

Oracle是一个多用户系统,能够自动从批处理或在线环境的系统故障中恢复运行。系统提供了一个完整的软件开发工具Developer2000,包括交互式应用程序生成器、报表打印软件、字处理软件以及集中式数据字典,用户可以利用这些工具生成自己的...

防御挂马攻击最佳实践

因此,网站被挂马攻击不仅会影响网站的公共形象,还可能会造成该网站用户的计算机系统故障和存储数据泄露,给用户的信息资产带来巨大的损失。如何防御挂马攻击 及时修复网站系统和网站所在服务器的各类漏洞,可以降低网站被挂马攻击的风险...

客户案例

业务挑战 一致性,一致性是金融业务的生命线,为了应对硬件或者系统故障(IDC/OS/机器故障),传统的数据库在这方面为业务提供多种选择。最大可用模式在主库故障情况下可能造成数据丢失。最大保护模式会提高全年的不可用时间,并造成性能...

使用ASM构建分布式系统的容错能力

重要 请勿频繁地重试或重试过长时间,避免出现级联的系统故障。解决方案 ASM支持使用虚拟服务定义HTTP请求重试策略。以下示例定义网格中的服务请求httpbin应用时,如果httpbin应用无响应或与httpbin应用建立连接失败,会重新请求httpbin...

使用ASM构建分布式系统的容错能力

重要 请勿频繁地重试或重试过长时间,避免出现级联的系统故障。解决方案 ASM支持使用虚拟服务定义HTTP请求重试策略。以下示例定义网格中的服务请求httpbin应用时,如果httpbin应用无响应或与httpbin应用建立连接失败,会重新请求httpbin...

通过异步复制功能实现容灾恢复

警告 故障切换功能会暂停云盘异步复制功能,您需要确保您的主盘发生故障时再使用故障切换功能,避免数据丢失。登录 块存储EBS控制台。在左侧导航栏,选择 企业级特性>云盘异步复制。在顶部菜单栏,选择地域。例如,华北2(北京)。使用故障...

出错提示“Btrfs has been removed”

问题原因 待迁移的操作系统使用了Btrfs文件系统,而迁移后Anolis/Alibaba Linux不再支持Btrfs文件系统,这会导致使用了Btrfs文件系统的硬盘分区中的文件在迁移后将无法读取,从而导致操作系统迁移失败。解决方案 远程连接ECS实例。具体操作...

实例启动异常常见错误与对应解决方案

1671696280:Windows系统BCD配置异常或磁盘文件系统故障,导致系统启动失败 问题现象 通过VNC登录实例时,Windows系统启动失败,启动界面显示 Windows未能启动,原因可能是最近更改了硬件或软件 错误信息,且 状态 为 0xc0000001。...

通过一致性复制组实现容灾恢复

警告 故障切换功能会暂停异步复制功能,您需要确保您的生产站点发生故障时再使用故障切换功能,避免数据丢失。登录 块存储EBS控制台。在左侧导航栏,选择 企业级特性>一致性复制组。在页面左侧顶部,选择目标资源所在的地域。找到故障生产...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

简介

使用 系统运维管理 SDK之前,您需要:了解并开通阿里云 系统运维管理,详情请参见 什么是系统运维管理。创建AccessKey。系统运维管理 支持以下主流语言的SDK包。语言 参考文档 Python 简介 Java 简介 Go 简介 C#简介 相关链接 阿里云开发者...

取消执行

使用系统运维管理(OOS)过程中,您可对执行进行取消操作。登录 系统运维管理控制台。查看某个执行的详情。单击 取消执行。单击 确定 取消执行。

补丁管理原理介绍

Linux 补丁管理支持的Linux系统包括 CentOS/Alibaba Cloud Linux/Debian/Ubuntu 等,不同OS使用不同的包管理工具,具体如下,不同包管理工具扫描、安装系统补丁的原理不同。OS 包管理工具 CentOS 7、Alibaba Cloud Linux 2、Red Hat ...

删除执行

使用系统运维管理(OOS)过程中,您可对最终状态的执行进行删除操作;如待删除的执行处于非最终态(如等待中或运行中等),您取消该类执行后则可对其删除。登录 系统运维管理控制台。单击 任务执行管理。在执行列表中选择可删除的执行,...

创建模板

您可使用 系统运维管理(OOS)平台提供的公共模板启动执行,也可以通过自定义模板来启动执行,下面介绍如何在 系统运维管理 控制台新建自定义模板。登录 系统运维管理 管理控制台。选择 自定义任务模板,单击 创建模板。在 基本信息 区域,...

使用OpenAPI

本文为您介绍使用系统运维管理OpenAPI的基本信息及注意事项。说明 关于如何使用阿里云OpenAPI,请参见学习文档:使用OpenAPI。基本信息 版本说明 版本号 说明 2019-06-01 推荐 接入点说明 参见 服务接入点。用户身份 用户身份 支持情况 ...

查看执行详情

使用 系统运维管理 OOS(CloudOps Orchestration Service)(OOS)过程中,您随时可通过查看执行详情了解执行的相关信息。登录 系统运维管理 OOS(CloudOps Orchestration Service)管理控制台。在执行列表中选择目标执行,单击 详情。在...

产品升级公告

升级影响 升级后,已经开通原运维编排服务(OOS)的客户可以继续使用 系统运维管理(CloudOps Orchestration Service,OOS),无需再开通该服务。如果未开通原运维编排服务(OOS)的新用户,如果要使用该产品能力,需要开通 系统运维管理...

全自动执行

使用 系统运维管理 OOS(CloudOps Orchestration Service)(OOS)可对平台提供的公共模板或您自定义的模板进行执行创建,如果您对模板中所有任务的风险已充分了解,则可选择 客户了解风险,无需确认 的风险确认模式来启动全自动执行,下面...

基于镜像的日常发布

使用 系统运维管理。解决方案 机器分组 首先建议对机器进行分组,可以给机器打上相应的tag,比如我们可以给我们的ECS按环境来分组env:test和env:product这样比较方便管理,批量执行时候只需要选好相应的标签即可。打镜像 然后我们需要解决...

参数仓库的加密参数批量修改实例密码

使用 系统运维管理 的模板来修改密码。无论是第一种还是第二种方法,如果直接输入密码,此时您的密码是以明文的形式输入的,并不是一种安全的状态,当您想查看使用过的密码历史记录时,也没有关于此方面的自动化记录。当您选择使用第二种...

Data API功能简介

下图以传统架构和简化后的架构为对比展示:降低系统风险 对于组件较多较复杂的系统使用故障的风险就越大。使用RDS Data API Service,可以将数据持久层从业务逻辑中抽离出来,极大地降低业务系统的复杂度,从而降低系统风险。架构图 ...

Windows操作系统云虚拟主机耗资源(客户程序故障)...

本文主要介绍Windows操作系统云虚拟主机耗资源(客户程序故障)问题的原因分析及处理意见。调用Access程序问题(最常见)原因:Access数据库大小超过30M,频繁调用时耗用系统资源。解决方法:将数据库大小压缩到30M以内,或者升级到SQL ...

实例的节点故障处理机制

副本集架构 副本集实例提供多个节点供用户访问,当其中的某个节点发生故障后,系统使用Secondary节点或隐藏节点替换故障节点继续提供服务,并对故障节点进行检查与修复。该过程对用户完全透明,可能会产生1次30秒内的连接闪断,建议您在...

使用快照(公测)

在执行可能影响云电脑稳定性的关键操作之前,例如修改注册表、修改关键系统文件等,建议您提前创建快照,一旦出现系统故障,就可以使用快照恢复数据。本文介绍如何使用快照。背景信息 快照是某一时间点某一块云盘的数据状态文件,可用于...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云安全中心 负载均衡 短信服务 数据库自治服务 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用