功能特性

通过日常巡检功能,可以例行化、自动化地对系统稳定性、可用性进行巡查,并将巡检结果实时同步推送至指定的钉钉中,便于运维人员第一时间了解应用风险;同时支持生成巡检报告,供运维人员统一归档。巡检插件支持多种类型,包括 python、...

实例启动异常常见错误与对应解决方案

针对实例启动过程中因操作系统内配置异常、异常关机等问题导致操作系统无法正常启动的情况,您可以通过VNC登录实例发现的启动异常或者实例健康诊断工具返回的异常字段,在本文查看此类问题的解决方案。Windows 1662001135:Windows系统因...

常见问题

更多产品定价常见问题 挂载访问FAQ Linux挂载NFS文件系统常见问题 Windows挂载SMB文件系统常见问题 Linux挂载SMB文件系统常见问题 Windows挂载NFS文件系统常见问题 为什么卸载旧NAS并重新挂载新NAS后,容器Pod仍将数据写入旧NAS?...

故障协同处理(基于钉钉)

2.故障应急场景:事件升级故障后,内推出 故障处理中 消息卡片,如果满足自动生成故障场景的需求(下文详细介绍创建故障场景逻辑),故障场景内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

GxP欧盟附录11标准合规包

16.1 为了提供支持关键过程的计算机化系统,应作出规定,确保在系统出现故障(例如手动或替代系统)时继续为这些流程提供支持。采用替代安排所需的时间应视风险而定,并适合特定系统及其所支持的业务流程。应充分记录和测试这些安排。17.1 ...

单实例快速恢复

为了能够快速恢复系统故障,Hologres提供了单实例快速恢复的机制。本文为您介绍单实例快速恢复的触发条件和行为。实例快速恢复逻辑说明 Hologres在 V2.0版本之前,Hologres计算节点均为容器调度(即下图中的Worker Node),资源管理器...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,分钟级的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

错误处理

自定义代码错误 除了函数计算和 Serverless 工作流 系统常见的错误类型外,您也可以自定义错误类型,在函数代码中主动抛出异常,方便将函数执行的状态或错误传递给 Serverless 工作流,然后 Serverless 工作流 再根据流程对任务进行重试或...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

捷顺

DAS服务自动SQL限流和自动SQL调优,帮助DBA从救火员转向数据库架构师,有更多时间和精力帮助研发优化系统架构,审核数据库的变更和各种操作,进一步降低系统故障的概率。DAS服务自动对数据库实例进行治理,帮助捷顺科技把数据库的运维成本...

Nginx网站常见问题排查

systemctl restart nginx#CentOS/Alinux系统 常见错误排查。Nginx 502可以参考:网站报“Nginx 502 bad gateway”错误的解决方法 及 使用Nginx进行访问网页出现“502”和“connect upstream time out”报错。Nginx网站访问卡慢排查 检查...

备份和恢复数据

当出现系统故障或错误操作时,如果在此之前已经创建了快照,您可以使用该快照恢复数据。本文以Windows客户端为例,为您介绍如何利用系统快照和自定义快照备份和恢复数据。背景信息 自定义快照:您可以根据业务需要在某一时间点创建快照,...

挂载文件系统失败故障排查

Linux挂载NFS协议文件系统失败自动检查脚本 Windows挂载SMB协议文件系统失败自动检查脚本 交叉挂载失败排查思路 Linux挂载SMB协议文件系统失败排查思路 Windows系统挂载NFS协议的通用型NAS文件系统失败排查思路 常见挂载报错FAQ 如何解决子...

功能概览

跨地域容灾 容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免...

畅捷通

畅捷通通过日志服务的异常预测函数,从海量指标中快速定位异常,将有问题的地方显示出来,快速发现系统故障。畅捷通通过日志服务将各块汇集过来的数据进行标记后,与应用的配置信息进行关联和整合,通过时序发现故障的根因,从而可以实现...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

故障止损恢复

快恢能力主要包含人工梳理快恢预案、通用垂直专项快恢能力:人工梳理预案:通过全面梳理故障场景及风险场景的可用降级预案来达到该场景触发故障时,系统自动推荐前期关联的预案,提供故障群内一键执行的方式,也提供设定执行条件,符合条件...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

专家成长计划技术培训课程

现场面授(特殊情况可调整为线上钉钉直播)云存储问题处理详解专题 1天 30人 全面介绍磁盘的基础知识,Linux和Windows操作系统的磁盘分区和文件系统结构,以及关键扇区的含义和作用,查看和编译磁盘结构的主要工具,例如Linux系统下的...

什么是数据库备份DBS

常见问题和故障处理 使用DBS时遇到的各类问题,例如需要修改备份源数据库、数据库恢复失败、如何备份RDS只读实例等,您可以在 常见问题 或 常见报错 内查找,可以解决您的绝大部分问题。说明 若在文档中未找到您遇到的异常或报错,或按照...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

集群管理FAQ

本文主要为您介绍集群管理的常见问题。Alibaba Cloud Linux操作系统的集群兼容CentOS的容器镜像吗?Kubernetes集群扩容常见问题的排查及解决方法 为何删除Kubernetes集群失败?通过CloudShell管理集群出现超时问题 创建集群选择了...

附录:SOFAStack 产品目录

SOFAStack 源于自蚂蚁内部沉淀十多年的金融级分布式中间件技术体系,吸收了支付宝自创立以来在关键金融交易系统锤炼出来的架构实践。SOFAStack 所有的产品技术均经过蚂蚁集团自身严苛的金融场景验证,为金融交易技术保证风险安全的同时,...

监控分析平台对比

运维成本:各系统的软硬件难免会出故障,硬件替换、缩扩容、软件版本升级,都需要投入不小的人力和精力。费用分摊:只有将资源消耗清晰准确地分摊到实际业务线中,才能更有效利用资源,制定合理的预算和规划。这也需要监控分析平台能提供...

AIOps 解决方案专家服务内容说明

调研的服务范围包含:基础资源调研、业务现状调研、应用系统调研《调研报告》2 智能故障发现方案设计 基于业务数据、资源组维度建立业务组单元,将业务组单元指标通过智能AI算法进行实时分析,帮助企业快速发现故障,列出可疑根因事件,并...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

支持计划

阿里云支持计划服务范围 2.1阿里云支持计划服务范围 阿里云支持计划服务范围包含:阿里云产品的最佳实践 阿里云产品相关的技术问题、故障处置 阿里云API 和阿里云SDK问题的故障处置 与阿里云资源相关的操作或系统问题的技术支持 与阿里云的...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

目标检测常见错误码

说明 阿里云视觉智能开放平台各类目视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉(23109592)加入阿里云视觉智能开放平台咨询联系我们。问题诊断中心 使用 问题诊断中心 可帮助开发者更高效地诊断API使用过程中的问题。目标...

内容审核常见错误码

说明 阿里云视觉智能开放平台各类目视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉(23109592)加入阿里云视觉智能开放平台咨询联系我们。问题诊断中心 使用 问题诊断中心 可帮助开发者更高效地诊断API使用过程中的问题。内容...

人脸人体常见错误码

说明 阿里云视觉智能开放平台各类目视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉(23109592)加入阿里云视觉智能开放平台咨询联系我们。问题诊断中心 使用 问题诊断中心 可帮助开发者更高效地诊断API使用过程中的问题。人脸...

存储资源

磁盘性能下降,读写速度变慢,任务执行时间增加,系统的实时性降低,当磁盘IO负载过大无法承受时,可能导致磁盘故障系统崩溃或数据丢失。常见的容错策略如下:数据缓存:将数据暂时存储在内存中,减少对磁盘IO的频繁访问。可以利用内存...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云消息队列 RocketMQ 版 文件存储 CPFS 云安全中心 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用