通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

在/var/log/messages日志中出现“INFO:task jbd2/vda1...

系统内核问题:当系统内核存在漏洞或者其他问题时,可能会出现hung task故障。系统资源紧张:ECS实例中应用或进程占用系统资源使用率(如CPU、内存等)过高时,可能会出现hung task故障。解决方案 出现hung task的原因比较复杂,您可以参考...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

EMR Kafka磁盘故障运维

业务场景 Kafka将日志数据存储到磁盘中,当磁盘出现故障时,导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

使用限制

故障切换 对于高可用系列、集群系列实例,当主节点出现故障时,RDS在30秒内切换到备节点(某些主备不一致等特殊场景可能切换时间较长)。切换过程中有30秒左右的连接闪断,需要您设置好程序的自动重连,避免因为切换导致服务不可用。切换...

常见问题概览

下载备份文件 性能、空间与内存 热点问题 其他常见问题 如何排查MongoDB实例负载过高的问题 MongoDB实例内存使用率高问题 MongoDB实例的CPU使用率高问题 MongoDB实例IOPS使用率高问题 MongoDB实例空间使用率高问题什么高可用系统触发...

自动故障剔除

自动故障剔除功能自动监控 RPC 调用的情况,当某个节点出现故障时,可对故障节点进行权重降级,并在节点恢复健康时进行权重恢复。目前支持 Bolt 协议。配置方式 将自动故障剔除的参数配置到 SOFABoot 中的 application.properties 即可。...

回切至本地物理机

如果扩充的是包含系统分区的磁盘,那么扩充的这部分空间会被ECS自动填充给系统分区,这样在恢复到本地的物理机时可能会出现分区越界的问题。如果系统分区相对源端机器被扩容,将会收缩相应的空间,确保和源端机器保持一致。反向注册。确认...

连接保持

当Proxy在新旧主节点中进行切换时,需要保留这个状态,否则会出现字符集乱码问题。所以连接保持的核心在于保证连接切换前后的会话状态一致。说明 当Proxy将连接从旧主节点切换到新主节点的过程中,会存在短暂的新老数据库同时不可写不可读...

自动故障转移和读写分离

libpq实现自动故障转移和读写分离 通过libpq函数连接多个数据库,当出现故障自动切换到可用的数据库。命令 postgresql:/[user[:password]@][netloc][:port][,.][/dbname]?param1=value1&.]示例 如下示例为连接1个RDS PostgreSQL主实例...

割接与上线

割接上线前的准备 应用的割接上线是整个应用上云迁移实施的最关键环节,这一环节出问题,可能造成重大故障。针对割接上线的重要性,我们建议在实施应用割接前,制定详细的割接前检查清单,这个清单的严谨程度很大程度上决定了割接成功率...

围绕混沌工程的平台实践

可能发生什么样的新问题?有哪些问题是正在解决中的?这些问题可以帮助您在设计演练流程时选择和系统业务有关的更优场景。为了帮助您选择合适的演练场景,AHAS Chaos在功能设计上做了以下两点:丰富的演练场景。首先在全面性上AHAS Chaos...

MNS是否支持长轮询

本文介绍 消息服务MNS 是否支持长轮询问题。消息服务MNS 支持长轮询。与传统的短轮询相比,长轮询在消息进入队列或长轮询超时时才返回响应。一旦消息可用,长轮询可立即以简单经济的方式从您的队列检索消息。详情请参见 长轮询

概述

说明 主备实例切换耗时约 5 分钟,切换过程中,可能会出现链接闪断。建议在业务低谷期执行主备切换,同时建议使用链接池等技术手段确保业务具备自动重连机制。主备实例操作列表 您可以根据业务需要创建备实例,并可对主备实例分别进行以下...

时序引擎版本说明

修复并发更新Schema时会出现大量版本冲突的问题。修复Lindorm ML时序预测在预测条件为大于或小于某时间点时,拉取数据不足的问题。修复Lindorm ML时序异常检测ostl-ttest算法和ostl-esd在数据量较大时会报错的问题。优化Lindorm ML时序异常...

云盒计算资源配置最佳实践

反之,如果选择最大实例规格为ecs.g6.26xlarge的SKU,由于该规格族的vCPU和内存配比1:4,则会出现内存浪费的情况。根据业务需求选择SKU时,可能会需要多种不同配比的ECS实例,此时可以选择多种规格族混合的SKU,以减少资源浪费。例如:您...

2023年

无 缺陷修复 修复智能诊断功能统计表大小时可能会出现数字溢出的问题,现已将统计表大小的列由integer数据类型修改为bigint数据类型。修复分区表UPDATE分布键列时出现 tuple already updated by self 错误信息的问题。修复Master节点不回收...

常见问题

如果无数据产生,则会出现数据不足的情况。案例:云监控上发现上传下载延迟 问题分析:云监控平台上查看到的数据是云监控产品节点发起探测请求获得的数据,并不代表真实用户环境。解决方案:云监控平台监控到访问延迟较大的情况,可通过...

PolarDB MySQL版5.7版本发布日志

修复对分区表执行修改分区的DDL语句后,新的Insert请求会出现autoinc duplicate key的问题。5.7.1.0.31 类别 说明 发布时间 新增功能和性能优化 提升低并发场景下Thread Pool处理建连请求的速度。2024-01-31 问题修复 修复使用逻辑预读功能...

ack-node-repairer

当节点出现故障时,自愈系统自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...

订阅云助手事件

使用轮询会占用用户的API调用额度,通过事件订阅的方式可以避免该问题。轮询的过程较长,容易被应用发布所打断。使用事件规避状态打断,可以降低用户的复杂度。事件触发条件&限制 事件触发条件:用户使用 RunCommand/InvokeCommand 触发...

PolarDB MySQL版8.0.1版本发布日志

修复RO节点的物理机出现故障时,RW节点在特殊情况下未将其复制关系中断,而引发RW节点刷脏受阻的问题。修复HA后,因表数量过多而引发table cache淘汰导致Autoinc回退的问题。修复多主集群缓存中心重启情况下,读写节点可能无法启动的问题。...

Link Visual SDK更新记录

ilop 优化高倍数下点播获取当前进度精度 修复反复快速start/stop可能产生的播放无法退出的问题 优化iOS APP未配置background audio情况下进入后台后使用对讲直播伴随模式会出现恢复时音频播放不出声的问题 修复复用点播播放器从云存切换到...

Windows实例

例如,执行同一命令的错误示例如下所示:云助手执行命令 ECS实例本地执行命令 可能原因 使用云助手执行命令,云助手Agent 会轮询合并stdout和stderr,合并顺序为先合并stdout,再合并stderr,然后输出结果。在ECS实例本地执行命令,按照...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

步骤五:应用容灾

故障恢复 本机出现故障后在云上拉起本地业务,待本地环境恢复后再将其恢复到本地。具体步骤如下:在 主站点管理 页签,单击+添加。在 添加计算平台 页面,填写计算平台 名称,选择 类型,填写 IP地址、用户名 和 密码。单击 创建。在连续...

MYSQL深潜-剖析Performance Schema内存管理

} } 内存分配的优化 通过前文分析,发现无论是page还是record都有几率出现跳过轮询问题,即便是缓存中有free的page或record也会出现分配不成功,导致创建更多的page,占用更多的内存。并且这些内存一旦分配就不会被释放。为了提升PFS内存...

标准版-双副本

当主节点出现故障,自研的HA系统自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

结果轮询

您可以通过结果轮询,直到某个值出现特定状态时停止轮询,并返回数据。waiter 选项字段说明 您可以通过使用-waiter 选项进行结果轮询。该选项包含以下两个子字段:字段名 描述 expr 表示通过 jmespath 查询语句指定的JSON结果中的被轮询...

部署和使用跨可用区实例

同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...

标准架构

当主节点出现故障,自研的HA系统自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

跨可用区容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。按如下步骤进行故障切换:在 受保护服务器 页签,在要启动故障...

跨地域容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。按如下步骤进行故障切换:在 受保护服务器 页签,在要启动故障...

异步检测

如果视频中出现了有质量问题的内容,返回截帧的URL。offset Integer 2 该截帧距离片头的时间戳,单位为秒。label String static 该视频截帧的风险分类。取值:blur:视频模糊。black_screen:视频中有黑屏内容。low_luminance:视频亮度...

Tair配置参数列表

部分参数在提交修改后自动重启实例(重启过程中实例发生秒级闪断)。在设置参数时,您需要关注目标参数的 重启生效 列,更多信息,请参见 设置实例参数。重要 不同的引擎版本和架构支持的参数有所区别,本文仅包含 Tair 实例的参数...

跨地域容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。故障切换步骤如下:登录 混合云容灾管理控制台。单击 切换到...

跨可用区容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。故障切换步骤如下:登录 混合云容灾管理控制台。单击 切换到...

搭建高可用架构

恢复数据 如果您已经按照前文的步骤搭建了高可用架构实例,您的业务一般是可以稳定运行的,即使出现问题也能快速恢复到可用状态。如果是单机故障,RDS除了基础系列之外的实例都可以在短时间内进行 主备切换 快速恢复您的业务。如果是可用区...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 商标服务 Web应用防火墙 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用