设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,数据库、MQ等中间件异常事件),以及集成各业务自建的定位工具能力,并在故障及风险预警的应急过程中进行可疑原因定位,帮助促进故障及风险预警初因定位的时长缩短。...

通过调用链路和日志分析定位业务异常问题

定位业务异常问题难度大、效率低,为了解决这一难题,ARMS应用监控通过结合调用链路和日志分析,可以快速、准确地定位业务异常问题,提升微服务框架下的诊断效率。前提条件 已开通日志服务SLS。登录 日志服务控制台 时,根据页面提示开通...

流量回放和压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

智能压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

Pod异常问题排查

解决方案 查看Pod的事件,根据事件描述,定位Pod不能被调度到节点的原因。主要原因有以下几类:资源依赖 创建Pod时,需要依赖于集群中ConfigMap、PVC等资源。例如,Pod添加存储卷声明前,存储卷声明需要先与存储卷绑定。资源不足 在集群...

查看监控信息

在进行数据库日常维护或处理数据库故障时,查看数据库相关的性能指标是必不可少的步骤。RDS MySQL的标准监控提供了丰富的性能监控指标,以及强大的诊断能力,能够及时发现数据库的异常并提供相应的治理方案。并且提供了常见数据库问题场景...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

Pod异常问题排查

解决方案 查看Pod的事件,根据事件描述,定位Pod不能被调度到节点的原因。主要原因有以下几类:资源依赖 创建Pod时,需要依赖于集群中ConfigMap、PVC等资源。例如,Pod添加存储卷声明前,存储卷声明需要先与存储卷绑定。资源不足 在集群...

诊断应用卡顿问题

定位、排查应用卡顿问题的原因有诸多难点。针对这类问题,ARMS提供持续剖析、调用链路诊断、接口监控等一套解决方案,帮助您快速准确定位应用中所有慢调用,进而解决应用卡顿问题。问题分析 网站卡顿、页面加载过慢是互联网应用最常见的...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

使用SysOM定位容器内存问题

为解决因容器引擎层的不透明性而导致的故障排查困难问题,阿里云 容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)团队推出操作系统内核层的容器监控可观测能力,为您提供更可靠、透明的容器引擎层,助力您更顺利地进行...

推空保护

当服务下所有实例全部移除时,集群将针对该服务自动开启1分钟的推空保护,防止因网络抖动、服务提供者短时间内发生故障等问题导致的异常推空,以保证此场景下用户业务可用性。说明 为保证业务的最高可用性,建议打开 ...

升级ASM实例

为避免过期版本实例存在的安全和稳定性风险,同时保证您业务的连贯性,服务网格 ASM支持通过原地升级或金丝雀升级的方式升级控制平面和数据平面。本文介绍ASM实例升级前后的注意事项和说明、升级路径、升级流程和操作步骤等。前提条件 已...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

查看自定义事件

事件监控为您提供自定义事件的统一查询和统计入口,方便您查看自定义事件的监控数据,并接收报警通知,便于您在业务故障时,快速分析并定位问题。前提条件 请您确保已上报自定义监控数据至云监控。具体操作,请参见 概览。操作步骤 登录 云...

查看自定义事件

事件监控为您提供自定义事件的统一查询和统计入口,方便您查看自定义事件的监控数据,并接收报警通知,便于您在业务故障时,快速分析并定位问题。前提条件 请确保您已上报自定义事件监控数据。具体操作,请参见 概览。操作步骤 登录 云监控...

查看系统事件

事件监控为您提供各云产品系统事件的统一查询和统计入口,使您及时得知各云产品的运行状态,并接收报警通知,便于您在业务故障时,快速分析并定位问题。背景信息 云监控支持各云产品的系统事件,请参见 云产品系统事件。操作步骤 登录 云...

诊断网页加载过慢的问题

根据 慢加载详情 页面的信息定位故障原因,进而排除故障。慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源...

附录:SOFAStack 产品目录

业务日志关联查询 自定义配置应用系统的业务日志,自动关联业务报错和摘要信息,快速定位问题及跟踪业务信息。应用场景 问题的分析和快速定位 在分布式场景下,服务调用错综复杂,问题分析与定位非常困难。分布式链路跟踪系统能迅速定位到...

查看系统事件

便于您在业务故障时,快速分析并定位问题。背景信息 云监控支持各云产品的系统事件,请参见 云产品系统事件。操作步骤 登录 云监控控制台。在左侧导航栏,选择 事件中心>系统事件。在 事件监控 页签,选择待查看的云产品、事件级别、事件...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

一键诊断

相关文档 通过一键诊断了解数据库性能情况的全貌后,您可以使用如下功能对数据库进行全面细致的诊断,准确定位故障原因,并解决故障。会话管理 性能趋势 锁分析 慢SQL 空间分析 常见问题 Q:一键诊断中,如何计算会话的线程使用率、连接数...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

使用前须知

专属仪表盘 无 使用场景 故障定位 您可以根据访问日志快速定位和解决故障。例如,根据 status 字段查看全球加速应答报文的状态,排查访问请求未获得预期响应的原因业务规划 您可以根据访问日志进行数据分析,提前规划业务规格。例如,...

使用前后端链路追踪诊断API错误原因

从而根据业务定位是什么原因导致API错误:当API返回错误码或者业务逻辑错误时,定位问题操作如下:登录 ARMS控制台,在左侧导航栏选择 前端监控>前端列表。在 前端列表 页面顶部选择目标地域,然后单击目标应用名称。在左侧导航栏单击 API...

什么是用户体验监控

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

产品优势

故障定位时,服务商和用户之间沟通时间长,且故障排查前,服务商需要先熟悉用户的云平台和应用平台,再排查故障,排查过程耗时长,导致业务长时间处于受损状态。服务流程可审计、可追溯,打造可信任的企业服务。操作过程难以记录和追溯,...

查看NIS异常事件

网络智能服务 NIS(Network Intelligence Service)为您提供云网络事件的统一查询和统计入口,帮助您及时感知云网络资源的变化,在业务故障时,快速分析并定位问题。背景信息 NIS 支持的事件,请参见 事件汇总。查看问题事件 问题事件:...

使用云监控功能监控网站环境(部署于ECS实例)

设置合理的监控可以让您实时了解系统业务的运行情况,并能帮助您提前发现问题,避免可能会出现的业务故障。同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要...

上下文查询

通过查看指定日志的上下文信息,您可以在业务故障排查中快速查找相关故障信息,方便定位问题。应用场景 例如,O2O外卖网站在服务器上的程序日志里会记录一次订单成交的轨迹:用户登录>浏览商品>选择物品>加入购物车>下单>订单支付>支付扣款...

使用访问日志

使用场景 故障定位 您可以根据访问日志快速定位和解决故障。例如,您可以根据 status 字段查看全球加速应答报文的状态,排查访问请求未获得预期响应的原因业务规划 您可以根据访问日志进行数据分析,提前规划业务规格。例如,您可以根据...

使用访问日志

使用场景 故障定位 您可以根据访问日志快速定位和解决故障。例如,您可以根据 status 字段查看全球加速应答报文的状态,排查访问请求未获得预期响应的原因业务规划 您可以根据访问日志进行数据分析,提前规划业务规格。例如,您可以根据...

趋势分析

通过延时、丢包率、探测次数三个指标在不同维度、不同汇聚粒度的表现来判断网络趋势,可以用来定位网络故障发生的时间点以及业务的网络质量趋势。首页点击 详情分析 按钮,进入“趋势分析”页面。筛选条件:说明 筛选条件“统计时间段”,...

订阅事件通知

数据传输服务DTS(Data Transmission Service)已接入云监控平台,您可以通过事件订阅对重要的事件设置定制化的报警通知,让您及时了解事件的发生与进展,帮助您实时掌握事件动态,便于您在业务故障时快速分析并定位问题。背景信息 云监控...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网无线连接服务 云服务器 ECS 云数据库 Redis 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用