系统故障排查

iftop并不是系统预装的,如系统内没有iftop相关命令,可以使用以下命令安装:CentOS:sudo yum install iftop Ubuntu:sudo apt install iftop 以下示例通过使用iftop命令,找出消耗流量最大的IP和端口。指定本机eth0网卡。sudo iftop-i ...

挂载文件系统失败故障排查

当挂载文件系统失败后,优先推荐您通过自动脚本或排查思路定位问题。部分挂载操作的报错,自动检查脚本无法排查处理,NAS也提供了常见报错FAQ便于您查阅。本文介绍云服务器ECS挂载NAS文件系统时,挂载失败的排查方法与解决方案。...

演练场景说明

网络故障是系统运行过程中时常遇到的问题,所以需要提升系统在网络异常情况下的容错能力。Java 场景名称 特性 虚拟机场景 故障演练支持的虚拟机场景。代码逻辑场景 故障演练支持的代码逻辑场景。JVM注入动态脚本 向指定的Java方法注入一段...

GxP欧盟附录11标准合规包

13.1 应报告和评估所有事件,而不仅仅是系统故障和数据错误。应确定重大事件的根本原因,并应成为纠正和预防行动的基础。使用云安全中心企业版 使用云安全中心企业版或者更高级别的版本,视为“合规”。1.1 风险管理应贯穿计算机化系统的...

Windows操作系统云虚拟主机耗资源(客户程序故障)...

本文主要介绍Windows操作系统云虚拟主机耗资源(客户程序故障)问题的原因分析及处理意见。调用Access程序问题(最常见)原因:Access数据库大小超过30M,频繁调用时耗用系统资源。解决方法:将数据库大小压缩到30M以内,或者升级到SQL ...

查看实例的系统日志和屏幕截图

系统通过串口打印输出的日志会包含两种类型的信息,一类是系统启动开机时的日志内容,另一类是系统内核故障或异常时的日志内容。更多详情,请参见《云栖社区》博客 操作系统有异常?诊断日志来帮忙。使用限制 使用该功能时您需要注意如下...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,分钟级的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

设计原则

因此,数据容灾对于企业来说是非常必要的,数据灾备是企业保护核心数据的重要手段,能有效降低勒索病毒、系统故障、自然灾害和运维事故导致的数据丢失和损坏问题,同时满足行业安全和合规要求,可以保障企业的正常运行和稳定发展。...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

设计方案

在软件系统架构演进中不变的是系统的基本属性,包含存储、计算和网络,变的是存储、计算和网络的实现方式和规模,往大规模、高性能、高可靠、易扩展等方向迭代演进,所以对架构稳定性提出了更高的要求。系统可预见的稳定性风险包含软硬件...

使用ASM构建分布式系统的容错能力

重要 请勿频繁地重试或重试过长时间,避免出现级联的系统故障。解决方案 ASM支持使用虚拟服务定义HTTP请求重试策略。以下示例定义网格中的服务请求httpbin应用时,如果httpbin应用无响应或与httpbin应用建立连接失败,会重新请求httpbin...

使用ASM构建分布式系统的容错能力

重要 请勿频繁地重试或重试过长时间,避免出现级联的系统故障。解决方案 ASM支持使用虚拟服务定义HTTP请求重试策略。以下示例定义网格中的服务请求httpbin应用时,如果httpbin应用无响应或与httpbin应用建立连接失败,会重新请求httpbin...

实例启动异常常见错误与对应解决方案

1671696280:Windows系统BCD配置异常或磁盘文件系统故障,导致系统启动失败 问题现象 通过VNC登录实例时,Windows系统启动失败,启动界面显示 Windows未能启动,原因可能是最近更改了硬件或软件 错误信息,且 状态 为 0xc0000001。...

如何通过 mPaaS 框架解决 App 线上问题

发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。这种方式也是推拉结合,及时触达用户。发布小程序更新如果故障发生在小程序中,只需要重新修改小程序,重新发布。和 H5 离...

故障演练

所以可以对故障模型再做一次升级,并得到一些推论:故障是来自于硬件(如IaaS层),软件(如PaaS或SaaS)的故障。并且有个规律,硬件故障的现象,会在软件故障现象上有所体现。故障隶属于单机或是分布式系统之一,分布式故障包含单机故障。...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

DDH生命周期

您可以自主迁移故障潜伏期的DDH到其他物理机,具体操作请参见 迁移有潜在故障风险的DDH。是 故障 稳定状态 DDH出现故障。您可以 提交工单 检查并处理问题。是 已过期 稳定状态 包年包月DDH到期时出现的状态。对DDH续费后,DDH的状态会变为 ...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

实例启动/停止异常常见问题

正常关机:ECS正常关机中,但因为操作系统在做系统补丁修复,或者系统配置不高导致操作系统启动反应慢,所以关机时间比较长。异常关机:ECS关机有异常,比如关机时系统报错,并没有真正进入关机流程。解决方案 通过查看实例的屏幕截图,...

操作系统迁移(Linux)

常见错误及修复方案的更多信息,请参见 SMC FAQ 和 操作系统迁移故障(Linux)。如果需要回滚源系统云盘数据,您可以在快照列表使用自动备份的快照进行恢复数据。操作步骤如下:登录 ECS管理控制台。在左侧导航栏,选择 存储与快照>快照。...

简介

使用 系统运维管理 SDK之前,您需要:了解并开通阿里云 系统运维管理,详情请参见 什么是系统运维管理。创建AccessKey。系统运维管理 支持以下主流语言的SDK包。语言 参考文档 Python 简介 Java 简介 Go 简介 C#简介 相关链接 阿里云开发者...

创建事件运维任务

事件名称 系统事件的名称,可多选,取值参见 云产品事件。地域 否 事件关联资源所在的阿里云地域,可多选。取值请参见 地域和可用区。事件等级 否 事件等级,可选值严重、警告、信息。事件详情匹配规则 否 Json格式,用来匹配系统事件的...

HaaS EDU场景式应用整体介绍

2.1 首页系统信息屏 这是系统启动后的默认屏幕,包含了许多的知识点:OLED显示屏驱动与显示 系统版本获取 系统联网与IP地址获取 网络时间获取 Wi-Fi状态获取 蓝牙连接 电池电量获取 通过本案例的学习,能完整学习到AliOS Things操作系统...

利用定时开关机节省成本

关于OOS更详细的介绍请查阅 什么是系统运维管理 OOS(CloudOps Orchestration Service)。场景简介 如果您的服务产品在每天都有特定的流量高峰期时间段,在此时间段内需要大量的实例维护服务。当过了每日的流量高峰期时间段后,此时保留...

Windows系统内存分析工具介绍

这种情况一般是系统底层有占用内存的情况,可以通过RAMMap工具查看系统内存的占用情况,该工具是微软官方的软件,相关信息及下载地址请访问 RAMMap。打开RAMMap,可以查看任务管理器中不显示的系统占用内存的情况。Process Explorer ...

产品优势

完备的鉴权和审计 您可以继续使用熟悉的资源访问管理和用户权限管理系统(RAM)来管理OOS,无论 系统运维管理 OOS(CloudOps Orchestration Service)自身的操作,还是通过 系统运维管理 OOS(CloudOps Orchestration Service)执行的对...

在批量执行命令中使用加密参数

通过 什么是系统运维管理 的参数仓库,可以更为方便的对参数进行集中管理。利用参数仓库的 加密参数,可以更安全的管理命令中的敏感信息。本文介绍如何在OOS批量执行命令时使用加密参数。前提条件 已开通密钥管理服务(KMS),请参见 什么...

helloworld简单示例

SConstruct#Makefile=>Scon=>aostools 2.2 基本规范 solution统一以 aos_maintask 作为入口函数,从具体单板的C入口main函数开始,通过创建一个主任务来执行,即aos_maintask是系统主任务的入口函数:static void aos_main_task_entry(void)...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠性和可扩展性,当一个节点发生故障或错误时,其他节点可以继续工作,相比于单机系统,架构本身就有较高的节点容错性。但随着服务拆分,更多组件的引入,分布式系统的复杂...

强弱依赖治理概述

强弱依赖治理的应用 强弱依赖治理主要可以被应用到以下场景:系统改造验收:对于分布式系统,至少在运行态中,不会因为依赖的系统后台出现故障,引起当前应用出现系统级可用性的故障,例如进程挂掉、频繁FullGC、负载飙高等,何时何地都应...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

AI助手使用说明

PAI AIMaster和灵骏AI助手是一套全自动化的故障快速恢复系统。安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置...

基于ack-lingjun-aiast组件实现集群自动化运维

系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低运维成本,提高系统可靠性和稳定性。组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,...

NVMe协议介绍

实际业务使用过程中单点故障是常态,确保故障情况下业务连续性是高可用系统的核心能力,在云上存储和网络具备极高的可用性。而计算节点则经常受断电、宕机、硬件故障等影响,所以业务通常搭建主备模式解决计算的高可用问题。例如数据库场景...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 数据库自治服务 文件存储 CPFS 云安全中心 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用