故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间故障原因分析:建议先一句话总结,再进行...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

一键诊断

诊断报告是对过去一段时间内前端监控所采集的数据的总结,通过JS错误...以页面为聚合维度,列出诊断结果(首次渲染耗时=responseEnd-fetchStart),诊断结果显示了页面渲染情况(例如,首次渲染耗时偏慢等)、均值、峰值、峰值时间等信息。

访问策略

6.备用地址池是在默认地址池因故障原因不可用时,可以将用户的访问流量切换至备用地址池上。在 备用地址池 的下拉框中,选择已创建的地址池名称,最后单击 下一步。如果您还没有创建地址池,请参考 创建地址池 文档。注意:如未设置备用...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

云盘三副本技术

重要 如果ECS实例由于病毒感染、人为误删除或黑客入侵等软故障原因造成数据丢失,需要您采用备份或者快照等技术手段来解决。任何技术都不可能解决全部问题,因地制宜地选择合适的数据保护措施,才能为您的业务数据筑起一道坚实的防线。更多...

故障注入

超时时间 故障类型为 超时异常 时,设置异常的超时时间。异常比例 设置注入异常流量的比例。例如设置为 80,则只注入 80%的异常流量。流量精确匹配(可选)设置流量的匹配条件,满足匹配条件的流量才会使用故障注入规则。置空此项时表示...

DescribeDomainMax95BpsData-查询95带宽峰值

CN Max95BpsPeakTime string 95 带宽峰值时间。2015-12-11T21:05:00Z Max95Bps float 95 带宽峰值。16777590.28 示例 正常返回示例 JSON 格式 {"RequestId":"3C6CCEC4-6B88-4D4A-93E4-D47B3D92CF8F","DomainName":"example.com","EndTime":...

API概览

UpdateProblemEffectionService 更新故障影响服务 GetProblem 查询故障详情 ListProblems 查询故障列表 ListProblemTimeLines 查询故障时间线列表 GenerateProblemPictureLink 获取故障图片链接 GenerateProblemPictureUploadSign 故障图片...

更新故障时间线

更新故障时间线。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

运维事件中心的审计事件

运维事件中心已与操作审计...CreateProblemTimeline 创建故障时间线节点。CreateProblemTimelines 批量创建时间节点。CreateRichText 创建富文本。CreateRouteRule 创建流转规则。CreateService 创建服务。CreateServiceGroup 创建服务组。...

创建故障时间线节点

创建故障时间线节点。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST...

查询故障时间线列表

查询故障时间线列表 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

捷顺

本文介绍数据库自治服务DAS助力...客户感言“阿里云DAS服务帮助捷顺科技对数十个数据库实例进行异常监测、自动限流、自动优化、自动弹性扩缩容,大幅降低了数据库运维成本和故障时间,大幅提高了系统的可用性。——捷顺科技总工&运维负责人。

ARMS告警精细管理最佳实践

如下图所示,告警处理的飞轮中想要更短的故障时间就需要更短的故障发现时间和更快的响应速度,并且在每一次的告警处理过程中不断地对组织的处理机制进行复盘改进,从而提高告警的处理效率,缩短组织的MTTC。大规模系统告警管理的痛点 复杂...

转换计费方式

由于备案、机房故障或机房迁移等原因生成的补偿续费订单,可退金额为0。登录 弹性公网IP管理控制台。在顶部菜单栏处,选择EIP的地域。在 弹性公网IP 页面,找到目标 EIP 实例,然后在 操作 列选择>实例变配>转后付费。在 弹性公网IP|包年...

转换计费方式

由于备案、机房故障或机房迁移等原因生成的补偿续费订单,可退金额为0。警告 转换后,实例不会释放。请确保账户余额充足,以免发生欠费导致停机。如果不再使用该实例,请做好数据备份后,前往控制台释放该实例。转换订单支付完成后,立即...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

概览

典型异常 异常可能原因 监控指标 报警条件 负载过高、负载波动较大或负载持续峰值 系统资源不足、进程异常(死循环、内存泄露等)、进程数量突增、某些应用程序或系统服务在某些时候突然产生了大量的请求或数据处理操作。(ECS)CPU使用率 ...

包年包月实例变配

由于备案、故障或机房迁移等原因生成的补偿续费订单,不予退款。适用场景 适用于想更加灵活地按需使用负载均衡实例,并且业务用量经常有变化、资源使用有临时性和突发性的场景。登录 传统型负载均衡CLB控制台。在 实例管理 页面,找到目标...

错误码

如果无法在等待时间内完成数据节点连接创建,而异步任务又尚未返回错误原因,PolarDB-X 会向应用返回PXC-4101错误。该错误通常是由后端数据节点异常导致的。如果排除数据节点问题后仍然出现该错误,请联系技术支持。PXC-4102 ERR_ATOM_GET_...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

事件中心

物理链路丢包对业务的影响风险 带宽流量用量突增突减的故障风险 实例欠费即将停机风险 事件等级 按照对实例正常运行的影响程度进行划分,事件分为以下几个等级:严重:影响重大,需要尽快处理,否则可能导致实例无法使用。警告:有一定影响...

ECS系统事件汇总

Canceled:因系统维护实例重新部署已取消 阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重新部署,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。重要 使用了本地SSD盘...

点播CDN常见问题

TCP重传由于互联网中网络情况较为复杂,在出现网络拥堵、设备故障等情况下就会出现丢包,通常有3%~10%的数据会被互联网丢弃,数据包被丢弃后的重传动作是由操作系统内核层的协议栈处理的,无法记录到应用层日志中,因此这部分也会产生额外...

查看运行分析

该指标协助您进行作业诊断,排查作业Task级别的故障原因。个 TM自JVM启动以来已加载的类总数(TM ClassLoader)TM自JVM启动以来已加载的类总数。JM所在的JVM创建后加载类的总数或卸载类的总数过大,会导致占用过大内存空间,从而影响作业...

Linux系统的ECS实例系统无响应,系统日志中出现“BUG:...

BUG:soft lockup-CPU#0 stuck for 61s 问题原因 该问题通常是由于ECS实例中,系统内核长时间占用CPU资源导致出现软死锁(soft lockup)故障,内核长时间占用CPU资源可能有以下原因:系统负载过高 内核死循环或死锁 内核调度问题 内核出现...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

用量统计

用量统计功能用于在指定通话应用下,根据使用时间段筛选出统计到的音视频通话数据进行展示。主要涉及指定通话应用下的通话时长、在线时长、房间数、用户数四个数据维度。具体包括相关数据维度下的数据指标概览、使用趋势、使用详情三个方面...

【公告】云防火墙异常流量排查体验优化和流量计量模型...

因为云防火墙的流量峰值带宽采用时间段聚合的数据,所以某个具体时间点的总流量峰值带宽会小于等于请求流量峰值带宽与响应流量峰值带宽之和。影响说明 本次优化对当前费用无影响 流量排查监控链路更简单、高效、准确 优化前流量排查链路 ...

使用弹性伸缩成本估算功能预估资源成本

低谷时实例数:5 峰值时实例数:10 峰值持续时间 输入您的实例以峰值状态运行的小时数和分钟数。8小时30分钟 如果您需要估算每周或者每月工作负载所需的资源情况,请选择 每周高峰流量 或者 每月高峰流量 类型。工作负载实例数 包含低谷时...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

产品优势

故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、域外技术风险防控经验,共建日常巡检、故障诊断、应急预案内容库,用户可享受最新的技术...

连接池治理

PoolingPeakTime 连接池数量处于峰值时间。ErrorCount SQL请求的错误数。ExecuteCount SQL请求的执行数。CommitCount SQL请求的提交数。RollBackCount SQL请求的回滚数。ActiveConnectionSize 活跃的连接数。WaitThreadCount 当前等待...

服务等级目标SLO概述

时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...

服务等级目标SLO概述

时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...

SQL洞察

PoolingPeakTime 连接池数量处于峰值时间。ErrorCount SQL请求的错误数。ExecuteCount SQL请求的执行数。CommitCount SQL请求的提交数。RollBackCount SQL请求的回滚数。ActiveConnectionSize 活跃的连接数。WaitThreadCount 当前等待...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享带宽 云数据库 MongoDB 版 负载均衡 云数据库 OceanBase 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用