故障管理

系统软件故障:包括操作系统死机、数据库的各类故障。硬件故障:包括硬盘、网卡损坏。相关设备故障:包括UPS失效引起的电力中断。自然灾害,包括洪水、火灾、地震。这里以阿里集团为例。为降低故障的影响,阿里集团故障管理体系从整体体系...

Linux系统的ECS实例中软件源配置说明,及常见问题的...

常见Linux系统软件源配置概要说明 进入 阿里云官方镜像站。找到所需的Linux系统,查看对应的源配置说明。说明 您也可以 通过脚本文件自动更新Linux实例中的软件源。Linux实例中软件源安装配置的常见问题 说明 CentOS 6与CentOS 8操作系统...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

常见问题

更多产品定价常见问题 挂载访问FAQ Linux挂载NFS文件系统常见问题 Windows挂载SMB文件系统常见问题 Linux挂载SMB文件系统常见问题 Windows挂载NFS文件系统常见问题 为什么卸载旧NAS并重新挂载新NAS后,容器Pod仍将数据写入旧NAS?...

使用快照(公测)

在执行可能影响云电脑稳定性的关键操作之前,例如修改注册表、修改关键系统文件等,建议您提前创建快照,一旦出现系统故障,就可以使用快照恢复数据。本文介绍如何使用快照。背景信息 快照是某一时间点某一块云盘的数据状态文件,可用于...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

什么是RPA

举例而言,就像工业时代工厂的流水线机器替代工人劳动一样,阿里云RPA可以代替办公人员操作电脑和软件自动完成各类软件系统的工作和业务处理,准确高效地实现业务流程自动化。阿里云RPA的显著特点包含:1.可以联动多个业务系统,自动执行...

SAP HANA 操作指南

管理你的 SAP HANA 系统 本节介绍对于部署在云服务器 ECS上的SAP HANA 系统,如何进行典型的系统管理任务,如系统启动、系统暂停、系统复制等。启动和停止你的 ECS 实例 你可以在任何时候停止一个或者多个 SAP HANA 主机,但是作为建议,请...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,分钟级的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

错误处理

自定义代码错误 除了函数计算和 Serverless 工作流 系统常见的错误类型外,您也可以自定义错误类型,在函数代码中主动抛出异常,方便将函数执行的状态或错误传递给 Serverless 工作流,然后 Serverless 工作流 再根据流程对任务进行重试或...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

捷顺

本文介绍数据库自治服务DAS助力...客户感言“阿里云DAS服务帮助捷顺科技对数十个数据库实例进行异常监测、自动限流、自动优化、自动弹性扩缩容,大幅降低了数据库运维成本和故障时间,大幅提高了系统的可用性。——捷顺科技总工&运维负责人。

Nginx网站常见问题排查

systemctl restart nginx#CentOS/Alinux系统 常见错误排查。Nginx 502可以参考:网站报“Nginx 502 bad gateway”错误的解决方法 及 使用Nginx进行访问网页出现“502”和“connect upstream time out”报错。Nginx网站访问卡慢排查 检查...

备份和恢复数据

系统快照:默认每天凌晨01:00系统自动为每台云电脑的系统盘和数据盘创建快照,该快照仅保留3天,3天后系统自动删除。在以下场景中,系统自动为云电脑创建快照。已绑定自动快照策略的云电脑,系统会根据策略设置的时间自动创建快照。管理...

单实例快速恢复

当出现1分钟容器响应超时(可能是内存溢出、硬件故障软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...

畅捷通

畅捷通通过日志服务的异常预测函数,从海量指标中快速定位异常,将有问题的地方显示出来,快速发现系统故障。畅捷通通过日志服务将各块汇集过来的数据进行标记后,与应用的配置信息进行关联和整合,通过时序发现故障的根因,从而可以实现...

客户案例

业务挑战 一致性,一致性是金融业务的生命线,为了应对硬件或者系统故障(IDC/OS/机器故障),传统的数据库在这方面为业务提供多种选择。最大可用模式在主库故障情况下可能造成数据丢失。最大保护模式会提高全年的不可用时间,并造成性能...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

功能概览

跨地域容灾 容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免...

自动/手动主备切换

系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

Tair选型指南

当主节点发生故障系统自动在30秒内切换至从节点,保障业务平稳运行。对Redis协议兼容性要求较高的业务。将 Tair 作为持久化数据存储使用的业务。单个 Tair 性能压力可控的场景。命令相对简单,排序和计算之类的命令较少的场景。集群...

如何修复Linux系统中已知的系统软件缺陷?

本文介绍如何升级Linux ECS实例的操作系统软件包,来修复因Linux操作系统本身已知的系统软件缺陷,导致的ECS实例使用或业务运行异常问题。操作场景 Linux操作系统的ECS实例某些业务运行异常问题,是由Linux操作系统本身已知的系统软件缺陷...

计费模式

终端访问控制系统提供软件和智能硬件设备服务,为您企业的员工提供随时、随地、高效、安全的办公体验。终端访问控制系统软件产品使用包年包月的计费模式,智能硬件设备使用一次性购买收费的计费模式。终端访问控制系统软件服务计费说明 ...

Linux系统挂载NFS协议文件系统

创建NAS NFS协议文件系统后,您需要使用云服务器来挂载该文件系统,以实现多个云服务器共享访问文件系统的目的。本文介绍如何通过阿里云Linux ECS实例挂载NAS NFS协议文件系统。前提条件 在创建文件系统的地域,已有可用的云服务器ECS...

自动定时重启ECS云服务器

然而,在实际运行中,我们可能会遇到这样一些场景:系统更新:一些操作系统或者软件的更新可能需要重启服务器才能生效。通过定时重启能够保证这些更新的正常应用。内存泄漏:有的程序可能存在内存泄漏的问题,长时间运行后可能会消耗大量的...

强弱依赖治理概述

强弱依赖治理的应用 强弱依赖治理主要可以被应用到以下场景:系统改造验收:对于分布式系统,至少在运行态中,不会因为依赖的系统后台出现故障,引起当前应用出现系统级可用性的故障,例如进程挂掉、频繁FullGC、负载飙高等,何时何地都应...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控,能够如实的反应应用运行状态,通过配置报警规则,用户可以在发现系统出现故障(内存泄露或者 CPU 热点等)趋势时,通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

线下系统调研问答汇总

本文总结了线下系统调研常见的问题和解决方案。IDC调研 连通性测试 请在工具服务器上运行如下命令,打印远端机器的日期来尝试连通性 sshpass-p '密码' ssh-p 端口 账号@ip地址 'date' 如果出现"host key changed"报错,则表示您需要远程...

重启设备

网络故障时,重启设备可消除部分软件故障。背景信息 重启设备一般有两种方法:通过关闭或打开设备电源进行重启。通过智能接入网关控制台,远程重启设备。关闭或打开设备电源 警告 您通过关闭或打开设备电源进行重启时,请注意保存设备的...

设备显示离线

可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的运营商网络正常。如果不正常,请处理运营商网络问题。如果正常,请跳转至 步骤2。请检查设备本身是否上电。电源状态...

Pod异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云安全中心 云数据库 RDS 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用