ReportInstancesStatus-反馈一台或者多台ECS实例异常...

SAS/RAID 卡故障 hardware-fan-error:风扇故障 others:其他 hardware-cpu-error InstanceId array 是 ECS 实例 ID 列表。最多可输入 100 个实例 ID。string 是 ECS 实例 ID。i-bp165p6xk2tmdhj0*DiskId array 否 发生相同异常问题的磁盘 ...

实时分析链路数据

而磁盘打满、内存溢出等故障仅影响单个容器。因此,在排查单机故障时,可以根据宿主机IP和容器IP两个维度分别进行分析。面对这类问题,可以通过调用链分析先筛选出异常或超时请求,然后再根据宿主机IP或容器IP进行聚合分析,可以快速判断...

监控面板说明

Memory Copy Utilization 表示节点GPU卡内存复制利用率。Encoder Engine Utilization 表示节点GPU编码器利用率。Decoder Engine Utilization 表示节点GPU解码器利用率。Memory and BAR1 GPU Memory Details 表示节点GPU内存信息:UUID...

监控集群GPU资源最佳实践

Memory&BAR1 ⑩ GPU Memory Details GPU内存信息,包括GPU的UUID、索引号、型号等。⑪ BAR1 Used 已使用BAR1为7 MB。⑫ Memory Used GPU已使用的显存大小为8.36 GB。⑬ BAR1 Total 总BAR1为33 GB。GPU Process ⑭ GPU Process ...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控,能够如实的反应应用运行状态,通过配置报警规则,用户可以在发现系统出现故障内存泄露或者 CPU 热点等)趋势时,通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

单实例快速恢复

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

主从实例读写分离部署(共享存储)

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移Shard职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker Node3),...

灾备方案

云原生内存数据库Tair 作为高性能的内存数据库,在业务场景中往往承载着大量的重要数据,为保障数据安全性,Tair 提供了多种灾备方案供您选择。Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

故障演练

进程外的故障,比如其他进程突然抢占了内存,导致当前系统异常等。对于大多数无损突袭演练的故障模拟,只需要关注故障对当前系统的影响,而不是真的需要外部产生故障。此外,还有一类故障,可能是人为失误,或流程不当导致,这部分不做重点...

使用限制

本文介绍 云原生内存数据库Tair 各数据类型以及部分功能特性的使用限制。项目 说明 List数据类型 List及其包含的元素个数无限制,但单个元素的最大值为512 MB。推荐List的元素个数小于8192,整体Value不超过1 MB。Set数据类型 Set及其包含...

产品架构

产品架构图 AHAS Agent AHAS Agent安装在指定的目标机器上,用来执行服务端下发的故障注入命令以及采集演练相关的必要信息,例如CPU、内存占用等。主要有以下特点:快捷高效:支持在控制台一键安装AHAS Agent,如果是公网则需要用户手动...

标准架构

Redis进程Fork导致Copy-On-Write,Copy-On-Write导致主节点进程内存消耗,极端情况下造成主节点内存溢出,程序异常退出。Redis主节点生成备份文件导致服务器磁盘IO和CPU资源消耗。发送GB级别大小的备份文件,会导致服务器网络出口爆增,...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

功能特性

云原生内存数据库Tair 云原生内存数据库Tair是阿里云自研数据库,兼容Redis的同时提供更多数据结构和企业级能力,包括全球多活、任意时间点恢复和透明加密等。支持多种存储介质和不同场景性价比需求:内存型支持超高吞吐,性能为Redis三倍...

云盒计算资源配置最佳实践

例如:您的业务需要100台4 vCPU,8 GiB内存的ECS实例,共计需要400 vCPU,800 GiB内存的算力,由于所需ECS实例的vCPU和内存配比要求为1:2,此时可以选择最大实例规格为ecs.c6.26xlarge的SKU,该规格族的vCPU和内存配比为1:2,在满足需求...

管理MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

功能优势

丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,包括了以下场景:常见的基础设施资源例如CPU、内存、磁盘等。应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练...

什么是云原生内存数据库Tair

云原生内存数据库Tair 是阿里云国产自研的云原生内存数据库。在完全兼容Redis的基础上,提供了丰富的数据模型和企业级能力来帮助客户构建实时在线场景。同时,Tair与新型存储介质——持久内存的高效结合,相比内存型,成本降低30%以上,并...

集群架构

云原生内存数据库Tair 提供双副本集群架构实例,可轻松突破Redis自身单线程瓶颈,满足大容量、高性能的业务需求。集群架构支持代理和直连两种连接模式,您可以根据本章节的说明,选择适合业务需求的连接模式。注意事项 云原生 版集群架构不...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

开启Sentinel兼容

Redis Sentinel简介 Redis Sentinel为开源Redis提供主从实例监控、故障告警、自动故障切换等服务,很多使用本地自建Redis数据库并且对可靠性要求较高的业务场景都用到了Sentinel。为了给这类场景中的Redis数据库迁移上云提供方便,阿里云...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

手动执行主备切换

除了自动故障转移,云原生内存数据库Tair 支持手动执行主备切换(即切换节点角色),方便您进行实时容灾演练,验证客户端程序的差错处理能力。如果实例部署在多可用区,您还可以根据业务的部署情况执行主备切换,满足应用就近连接的需求。...

网站耗资源(客户程序故障)常见问题

网站耗资源(客户程序故障)主要分为过度消耗CPU资源和过度消耗内存资源两种情况。网站耗资源(客户程序故障)与大流量的区别是什么?大流量会导致网络带宽被严重占用,而网站耗资源(客户程序故障)则导致服务器无法正常运行。两者的具体...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

报警设置

订阅事件通知:当 Tair 实例产生了主动运维事件(如实例迁移)、实例发生了故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...

步骤1:创建实例

云原生内存数据库Tair 包含多种形态:内存型、持久内存型和磁盘型,您可以根据本文的步骤创建适应业务需求的 Tair 实例。前提条件 已注册阿里云账号,更多信息,请参见 注册阿里云账号。若您要创建按量付费的实例,请确保您的账户 余额大于...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 负载均衡 应用高可用服务 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用