故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

更新故障时间线

PROBLEM_KEY_NODE content String Body 否 故障分析 节点内容 time String Body 否 2021-01-08 10:10:10 发生时间 problemId Long Body 否 234 故障id clientToken String Body 否 c26f36de-1ec8-496a-a828-880676c5ef81 幂等标识 返回数据...

EMR Kafka ECS磁盘事件处理

重启故障ECS实例。在ECS修复磁盘事件流程中,单击 重启。在EMR控制台启动故障Broker节点服务。观察Broker节点状态是否处于正常状态。当执行完ECS实例重启后,修复磁盘 事件处于 新盘插入中 阶段。等待ECS修复磁盘。在 新盘插入中 阶段,...

托管节点池概述

自愈:托管节点池会监控节点的运行状态,如果节点超过10分钟未上报节点状态,或者状态为NotReady,容器服务会尝试通过重启故障节点来恢复潜在的故障。因此,节点上的Pod会被重启。托管节点池与普通节点池的区别 ACK提供普通节点池和托管...

合理利用存储备份保障业务数据可还原

背景 容器场景下,应用本身大多是无状态化的,凭借K8s提供的故障重启、自动注册和发现机制,在多实例部署的场景下,能够较大程度地保障业务的高可靠,但对于有状态服务,如中间件等,为了保障持久稳定的运行,需要考虑业务数据在问题场景下...

什么是用户体验监控

ARMS 用户体验监控(Real User Monitoring,RUM)专注于对Web场景、App移动应用场景和小程序场景的监控,以用户体验为切入点,完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

故障演练

演练方案设计理论基础 技术型故障分析归纳,大致可以按照IaaS、PaaS、SaaS的层次进行归类。上面的分类是一个宏观视角,不是一个系统设计的视角。所以可以对故障模型再做一次升级,并得到一些推论:故障是来自于硬件(如IaaS层),软件(如...

什么是云拨测

数据可视化:通过直观的数据展示和报表,您可以轻松了解网络状况、性能以及故障分析。应用场景 网络性能监控:云拨测可以帮助企业和个人用户实时监控网络状况,确保业务运行的稳定性和可用性。业务可用性验证:通过模拟真实用户请求,云拨...

跟踪概览

故障诊断与运维 服务故障分析:在出现服务中断或性能下降时,可以使用跟踪日志来分析事件前后的操作,以帮助确定故障原因。配置变更追踪:记录对云资源配置的所有更改,帮助识别可能导致服务中断的配置错误。基本概念 概念 说明 跟踪 跟踪...

组复制简介

旧主节点故障重启后,能够自动加回集群,拉取它缺失的Binlog,就能够获得最新的数据,不会导致主备节点数据不一致。而在传统主备复制模式中,事务是先写入Binlog文件,然后传输到备节点。这样,如果主节点在写入Binlog后,传输数据到备节点...

托管节点池节点自动恢复

如果打开了 当节点故障重启节点 开关,则重启ECS实例。KubeletNotReady(PLEG)PLEG健康检查失败,导致节点NotReady。中 180s 重启containerd或Docker。重启kubelet。如果打开了 当节点故障重启节点 开关,则重启ECS实例。...

应用场景

故障关联分析:以应用为中心,覆盖组件、实例、主机、云资源等多维度关联分析,迅速找到异常故障点。问题分析与快速定位 在分布式场景下,服务调用错综复杂,问题分析与定位非常困难,分布式链路跟踪系统能迅速定位到有问题的服务,协助...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

重启设备

网络故障时,重启设备可消除部分软件故障。背景信息 重启设备一般有两种方法:通过关闭或打开设备电源进行重启。通过智能接入网关控制台,远程重启设备。关闭或打开设备电源 警告 您通过关闭或打开设备电源进行重启时,请注意保存设备的...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

查看实例的系统日志和屏幕截图

您可以利用这些功能分析排查实例故障,例如诊断操作系统无响应、异常重启或者无法连接实例等。前提条件 实例必须处于 运行中(Running)状态才能获取系统日志和屏幕截图。背景信息 云服务器ECS的系统日志是运维诊断的重要一环。如果您需要...

指标拆解

例如,指标拆解可以方便的查看多个维度中的各个成员对整体的贡献,您也可以将度量值分解至一个或多个组,分析每个组的数据情况。本文为您介绍如何为指标拆解添加数据并配置样式。前提条件 已创建仪表板,请参见 新建仪表板。图表概述 ...

Postgres CDC(公测中)

failure-rate:故障重启策略。exponential-delay:指数延迟重启策略。详情请参见 Restart Strategies。restart-strategy.fixed-delay.attempts 固定延迟重启策略下,尝试重启的最大次数。无。语法结构 CREATE TABLE postgrescdc_source...

附录:SOFAStack 产品目录

分析服务性能:调用拓扑中的应用都可以单独进行下钻分析,可以从吞吐、错误率、响应时间等指标对应用性能进行详细分析。应用性能和架构的优化 在调用关系拓扑中能对各个应用的调用次数和耗时情况进行查看和分析,找到负载较高和负载较少的...

使用执行计划分析查询

本文介绍如何使用Stage层和算子层执行计划分析查询。Stage层执行计划 Stage层执行计划由多个Stage节点组成,数据流向自下而上,先由具有扫描算子的Stage进行数据扫描,再经过中间Stage节点的层层处理后,再由最上层的根节点将查询...

CLB访问日志功能简介

CLB结合阿里云日志服务提供的访问日志功能,可帮助您大幅提升日志数据分析故障定位处理的效率。什么是CLB访问日志 CLB的访问日志功能收集了所有发送到CLB的请求的详细信息,包括请求时间、客户端IP地址、延迟、请求路径和服务器响应等。...

通用性能

告警 支持主流协议 Snmptrap、Syslog、PING(同时支持采集性能告警)告警解析能力:支持 实时计算引擎,1万记录数/秒的分析入库 故障收敛能力:支持 按照规则和拓扑压缩归并 诊断自愈能力:支持 执行预分析和自动化管控任务,设备场景做到1...

多账号操作日志统一归集与审计

日志分析及高危操作洞察 基于审计日志能够实现持续监控告警及安全分析,及时洞察可能存在的高危操作、非法操作等,并支持日常故障排查。​ 使用场景 场景一:应对企业外审要求 场景描述 企业受外部审计机构要求,必须留存180天及以上的审计...

三网合一卡2.0使用入门

步骤四:验证重启是否切网成功 设备手工重启后自动切换网络,查看运营商信息是否更新 步骤五:验证网络故障设备自动重启切网 登录阿里云控制台,对当前使用的运营商卡片进行停机操作,模拟断网场景,在 步骤二 的基础上等触发检测后,设备...

功能特性

手动执行主备切换 重启Proxy节点 支持手动重启Proxy节点,适用于由业务异常造成的Proxy节点问题或故障演练。重启或重搭代理节点 释放保护 被保护的按量付费实例不可被释放。开启实例释放保护 风险命令动态屏蔽 支持动态禁用风险命令,提高...

ECS系统事件汇总

Executed:因系统错误实例重启结束 Instance:SystemFailure.Reboot:Failed:因系统错误实例重启失败 当阿里云识别到ECS实例因底层宿主机出现了非预期的软硬件故障(如CPU、内存硬件损坏等)被重启时,立即发送该系统事件。建议您等待实例...

功能特性

继而在风险事件发生时,将例行化、程式化、标准化的排查过程,通过故障决策自动执行,并直接反馈诊断结果。通过故障诊断平台,能够极大地缩短故障排查时间。同时,屏蔽了不同运维人员在故障排查时的经验和技能差异,实现故障的快速定位。...

诊断决策

您可以通过诊断决策,编排故障排查的过程。对于已知的明确故障,可以根据诊断现象,编排诊断决策,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策 ...

概述

通过 DST,运维人员、开发人员和架构师能看清楚复杂的大规模微服务架构下的应用及服务之间的 复杂调用关系、性能指标、出错信息 与 关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运...

Serverless应用指南

需要您自行保证Canal的可用性,避免出现业务不可用或业务故障。例如,ECS重启时Canal异常退出。通过Canal将MySQL数据同步到阿里云ES 将日志数据同步到阿里云ES Serverless应用 logstash 开发脚本:java restclient、python client等。对...

设计方案

故障复盘:故障复盘是指对故障进行分析和总结,以便更好地避免故障的再次发生。在故障复盘过程中,需要对故障的起因、影响、处理过程等进行详细的记录和分析,并制定相关的措施。故障复盘也是一种学习和提高的过程,能够不断完善系统和提高...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

诊断规则

通过故障诊断平台,运维人员可以将诊断过程、排查顺序进行图形化编排与设计,即故障诊断决策。而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现...

分布式链路概述

帮助运维人员、开发人员和架构师轻松应对复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维开发工作...

什么是业务实时监控

分布式链路:提供应用拓扑和链路查询功能,观测应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维开发工作。日志查询和日志关联...

功能架构

分布式链路 分布式链路帮助运维人员、开发人员和架构师看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、...

实例启动异常常见错误与对应解决方案

为了避免实例重启后进入系统恢复界面,确保系统能够从故障中恢复,在日常使用中,可以参考以下操作避免产生故障。将重要数据放在数据盘。定期对系统盘、数据盘创建快照,以便发生问题时可以恢复数据。在修改系统注册表前备份注册表文件,...

基本概念

故障管理 网络故障的发现、分析、定位等维护管理,包括告警信息的收集入库、规则匹配、关联分析以及告警清除等一系列流式处理过程。Netconf netconf协议一般用于网络业务配置,使用结构化可描述语言实现快速的网络设备下发。gRPC 高性能、...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
智能对话分析 实时数仓 Hologres 云原生数据湖分析 (文档停止维护) 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用