功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

ADP底座介绍

常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

高性能版实例

以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障和计算节点宿...

运营阶段

通过前期的设计,到构建,服务进入日常运营环节。在这个阶段往往会产生大量的运营事件,比如日常的资源申请。企业在持续运营过程中也会产生或大或小的生产故障,需要做好线上故障管理,提升服务SLA。

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练...

MSE注册配置中心和自建注册配置中心对比

升级和扩缩容 免去手动配置和升级,同时运维操作过程支持无损上下线能力,避免升级、扩缩容等运维操作引起的线上故障。需要手动操作,繁杂且效率低,容易引起线上故障。高可用 多可用区部署,故障自动检测及恢复,SLA保障率高达99.95%。需...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

概述

严重的慢SQL发生后可能会拖垮整个数据库,对线业务产生阻断性的风险,对于线上常见的慢SQL问题,MSE服务治理提供了场景化的解决方式。具体详情,请参见 慢SQL治理。数据库层面的数据路由灰度能力,是全链路灰度、开发环境隔离等场景落地...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

常见问题FAQ

3.阿里云默认图片检查 故障示意图如下,且屏幕右角无任何故障提示。该问题为设备未注册到后台,请联系安装服务商重新注册,或者按照云屏安装方法操作指南注册。4.HDMI无信号 故障示意图如下:故障排除方案如下:1.见下遥控器说明,按电源...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

应用故障自动诊断

常见故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

如何通过 mPaaS 框架解决 App 线上问题

如果真的在线发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

耗资源用户处理流程

为了保证您的站点能够安全、...关于网站耗资源的原因以及排查方法,更多信息,请参见 网站耗资源(客户程序故障常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见 云虚拟主机官网。

诊断决策树

对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏,单击 故障诊断>诊断决策树。单击 新建,在 创建诊断决策树 页面,配置诊断决策树信息,包括决策树...

EMR Kafka磁盘故障运维

磁盘故障及其运维通常伴随着磁盘的数据销毁。在进行磁盘运维时,您应考虑数据是否需要迁移备份。对于Kafka集群,您还需要考虑Topic分区副本数据是否可以从其他Broker节点分区副本同步恢复。本文以EMR Kafka 2.4.1版本为例,介绍Kafka磁盘...

智能压测

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库复现故障场景,定位故障原因。注意事项 为减少网络延迟对压测的影响,压测客户端和目标实例需要在同一个地域。说明 建议将压测客户端和目标实例放入同一个...

流量回放和压测

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库复现故障场景,定位故障原因。注意事项 为减少网络延迟对压测的影响,压测客户端和目标实例需要在同一个地域。说明 建议将压测客户端和目标实例放入同一个...

管理集群

如果故障主机是非云盘主机,则系统会先将故障主机的实例迁移走,然后自动替换故障主机。手动替换主机:用户需要手动替换故障主机。开放OS权限 主机是否开放OS权限。资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更...

管理集群

如果故障主机是非云盘主机,则系统会先将故障主机的实例迁移走,然后自动替换故障主机。手动替换主机:用户需要手动替换故障主机。开放OS权限 主机是否开放OS权限。资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更...

管理MySQL集群

如果故障主机是非云盘主机,则系统会先将故障主机的实例迁移走,然后自动替换故障主机。手动替换主机:用户需要手动替换故障主机。资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配...

创建MySQL集群

如果故障主机是非云盘主机,则系统会先将故障主机的实例迁移走,然后自动替换故障主机。手动替换主机:用户需要手动替换故障主机。开放OS权限 专属集群MySQL引擎的主机提供操作系统(OS)权限,您可以登录主机进行上传、下载、安装软件等...

创建集群

如果故障主机是非云盘主机,则系统会先将故障主机的实例迁移走,然后再替换故障主机。手动替换主机:用户需要手动替换故障主机。说明 仅MySQL引擎支持设置此参数,其余引擎不支持设置,默认自动替换主机。开放OS权限 设置主机是否开放OS...

创建集群

如果故障主机是非云盘主机,则系统会先将故障主机的实例迁移走,然后再替换故障主机。手动替换主机:用户需要手动替换故障主机。说明 仅MySQL引擎支持设置此参数,其余引擎不支持设置,默认自动替换主机。开放OS权限 设置主机是否开放OS...

产品优势

本文档描述产品的主要使用优势。主要优势 多监控系统集成:支持10+常见监控系统集成,简单配置即可快速完成对接;灵活的报警降噪能力:支持横向抑制、...阿里巴巴故障管理最佳实践输出:帮助云企业构建故障管理体系,持续提升业务连续性。

快速使用专属集群MyBase

如果故障主机是非云盘主机,则系统会先将故障主机的实例迁移走,然后再替换故障主机。手动替换主机:用户需要手动替换故障主机。说明 仅MySQL引擎支持设置此参数,其余引擎不支持设置,默认自动替换主机。开放OS权限 设置主机是否开放OS...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点的新故障事件,并根据配置对故障节点进行相应的修复操作。...

故障演练

常见故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线业务的影响,...

GTM如何实现异地容灾

常见问题 故障切换时间是多少?在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云...

应用诊断

应用诊断是对应用的单独故障诊断,可以由链路诊断触发或人工触发。高可用管理平台通过应用诊断初步定位问题,锁定可疑应用,再通过 Arthas 和线程分析进一步确认问题。目前,应用诊断支持用户应用和蚂蚁应用。应用诊断是故障诊断的原子能力...

GTM如何实现同城容灾

常见问题 故障切换时间是多少?在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云...

故障发现

7*24监控值班 对于有条件的企业,可以设立全球运行指挥中心(Global Operations Center,简称GOC),实现7*24监控值班,时刻关注核心业务线异常与故障。对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 OceanBase 版 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用