故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

ADP底座介绍

常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

服务等级说明

服务等级说明 数据总线服务等级协议 本服务等级协议(Service Level Agreement,以下简称“SLA”)规定了阿里云向客户提供的数据总线(简称“数据总线”)的服务可用性等级指标及赔偿方案。1.定义 1.1 服务周期 一个服务周期为一个自然月。...

高性能版实例

以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障和计算节点宿...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

常见问题

应用监控:常见问题概述 前端监控:前端监控常见问题 可观测监控 Prometheus 版:可观测监控 Prometheus 版常见问题 可观测可视化 Grafana 版:可观测可视化 Grafana 版常见问题 Kubernetes监控:Kubernetes监控常见问题 应用安全:应用...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止...

应用故障自动诊断

常见故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

慢会话追踪

慢会话追踪功能可提供页面加载过程中静态资源加载的性能瀑布图,帮助您根据页面性能数据详细了解页面资源加载情况,并快速定位性能瓶颈。前提条件 重要 静态资源加载信息的上报是在页面加载时触发的...更多信息 页面访问速度 前端监控常见问题

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

故障演练

常见故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

新手指引

模块问题 计费常见问题 数据库常见问题 流量统计常见问题 网站管理常见问题 管理控制台常见问题 网站耗资源(客户程序故障常见问题 更多常见问题,请参见 常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问...

计费常见问题

本文梳理了常见前端监控计费问题,帮助您更准确的理解计费规则。如何停止计费?设置消费限制 如何设置资源包预警?如何停止计费?若您因业务调整不再使用前端监控,您可以通过停止应用或删除应用站点的方式关闭计费。停止应用(全部应用...

QueryMetricByPage-查询监控指标

分页查询应用监控或前端监控的相关监控指标。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略...

强弱依赖治理最佳实践

通过以上业务依赖的预判可以得出以下结论:前端对商品推荐服务预判为弱依赖,表示当推荐服务发生故障前端正常访问不应该受阻。在购物链路中,商品服务product对商品数据库product-mysql预判为强依赖。表示如果扣减库存失败,则应该阻断下...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

事件分析概述

事件总线EventBridge 支持对发布到事件总线的各种事件进行追踪查询、分析处理和可视化图表展示。本文介绍事件分析的类型、适用场景与优势。背景信息 事件总线EventBridge 的实时事件分析平台依托事件的实时处理引擎,提供数值检索、可视化...

前端监控常见问题

本文解答了关于前端监控的常见问题。计费相关 如何停止计费?如何设置消费限制?如何设置资源包预警?使用相关 为什么有些监控页面或API名称中出现了星号(*)?为什么页面访问量列表和页面访问速度列表不一致?为什么API日志中没有生成...

设置连接池

如果您的应用连接创建频繁(例如短连接场景)或者连接数量很大(大于MySQL数据库的连接数限制),您可以参考本文使用合适的RDS MySQL数据库代理连接池,降低应用与数据库建立连接的频率来减少MySQL数据库主线程的开销,减少数据库上的总...

QuerySlotMetrics-获取加速槽监控指标

FrontendIops:前端服务读取频率。NetworkReceiveBytesPerSecond StartTime string 否 起始时间,默认是 1 小时前。2020-11-08T15:00:00Z EndTime string 否 截止时间,默认是当前时间。2020-11-08T16:00:00Z TimeStep string 否 时间间隔...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

通过EventBridge将MNS投递事件发送至钉钉

常见问题 在配置审计控制台创建消息服务MNS投递时使用的主题可以作为事件总线EventBridge的事件源吗?不可以,因为事件总线EventBridge对于消息服务MNS的事件源仅支持队列。您可以为消息服务MNS的主题添加队列类型的订阅,并将此队列作为...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

使用OpenAPI诊断工具进行故障排查

阿里云OpenAPI平台提供使用诊断工具。本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后...如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 获取解决方案。

什么是应用实时监控服务ARMS?

应用实时监控服务(Application Real-Time Monitoring Service)作为一款云原生可观测产品平台,包含应用监控、前端监控、Prometheus监控、云拨测、Grafana服务、告警管理等一系列子产品。其覆盖浏览器、小程序、APP、分布式应用、容器等...

灾备规划

RPO越小,往往要求数据备份、复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。RTO:指故障发生后,期望从启动容灾恢复操作到应用恢复上线所需要的时间。故障单位时间内对业务造成的损失越大,RTO就要求越短。RTO和RPO一般...

NVMe协议介绍

非易失性内存主机控制器接口规范NVMe(Non-Volatile Memory Express)是一个逻辑设备接口规范,它是与AHCI类似的、基于设备逻辑接口的总线传输协议规范。本文为您介绍NVMe协议的基本概念和使用场景。基本概念 基本概念 说明 优势 NVMe NVMe...

pg_stats_ext

most_common_base_freqs float8[]最常见组合的基本频率的列表,即每个值频率的乘积(当 most_common_vals 是空值时,为空)。数组字段条目的最大数量可以基于一列列地使用 ALTER TABLE SET STATISTICS 命令来控制,或者通过设置全局的 ...

pg_stats_ext

most_common_base_freqs float8[]最常见组合的基本频率的列表,即每个值频率的乘积。(当 most_common_vals 是空值时,为空)。数组字段条目的最大数量可以基于一列列地使用 ALTER TABLE SET STATISTICS 命令来控制,或者通过设置全局的 ...

邮件推送常见退信代码及处理方法

接收方临时故障 400 the mta server of unexpected closed 450 Service temporarily unavailable 451$DOMAIN Resources temporarily unavailable 451 4.7.1 Sorry,the service is currently unavailable 451 Internal resource temporarily...

测试指标

具体如下:一级指标 二级指标 单位 解释 GC GC频率 每秒多少次 Java虚拟机垃圾部分回收频率 Full GC频率 每小时多少次 Java虚拟机垃圾完全回收频率 Full GC平均时长 秒 用于垃圾完全回收的平均时长 Full GC最大时长 秒 用于垃圾完全回收的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据总线 DataHub 数据库自治服务 应用实时监控服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用