【系统恢复】容器服务关于2021年02月23日阿里云ECS...

背景 因02月23日ECS管控API发生异常,ACK及ACK Pro集群网络模式若为Terway(独占ENI或ENI多IP模式),部分用户在异常时间段所创建的Pod的IP会由于信息不一致而导致网络不通。我们建议相关用户核查此类Pod,如有问题需要加以修复,具体操作...

如何排查EMR Kafka服务异常

查看最新写入的日志信息,看是否有异常信息输出 tail-f$LOG_DIR_ROOT/kafka/server.log 解决问题,恢复异常服务。定位异常原因后,您可以参考相应的文档解决问题。详情请参见 Kafka常见问题。常见服务异常的处理方法 常见服务异常的处理...

修复单台JournalNode异常

本文介绍如何从其他节点恢复异常的JournalNode服务。操作步骤 找到健康状态的JournalNode。您可以通过HDFS WebUI查看JournalNode的状态,详细信息请参见 HDFS Web UI介绍。登录到健康的JournalNode所在节点(优先选择header或master节点)...

恢复通知

在密集监控场景中,您可以开启恢复通知功能,便于及时感知异常恢复情况。即监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。例如您创建了一个告警监控规则,用于监控各个主机的CPU指标,当CPU使用率超过95%时触发告警,...

应用场景

服务网格 ASM主要适用于需要对应用服务进行流量管理、安全管理、故障恢复、观测监控以及微服务架构迁移的应用场景。本文介绍ASM的常见应用场景。流量管理 通过ASM,可以轻松实现基于配置的流量管理:将流量管理与基础设施管理分隔开来,并...

Logstash消费

高可靠性:消费进度保存到服务端,异常恢复后会从上一次消费的Checkpoint处自动恢复消费。自动负载均衡:根据消费者数量自动分配Shard,消费者增加或减少后会自动负载均衡。操作步骤 安装Logstash。下载安装包。解压安装包到指定目录。安装...

如何处理系统内存使用率过高问题?

如果不存在异常服务或进程:建议您升级实例规格,具体操作,请参见 包年包月实例升配规格 或 按量付费实例变配规格。如果存在异常服务或进程,请继续执行步骤 4。执行如下命令,从进程维度查看CPU、内存等资源的使用情况。top 同时按 Shift...

创建恢复任务

如果数据库的数据已被勒索病毒入侵,您可以创建恢复任务恢复被勒索病毒加密的数据,降低勒索病毒给您带来的损失。本文介绍如何创建恢复任务、查看恢复任务状态。前提条件 已为该数据库创建防护策略并且该策略运行正常(可以正常备份数据库...

模型部署

点击删除后部署任务消失,不再计费 欠费恢复中 查看 此状态不计费,表示账户已充值,系统自动恢复服务中,服务恢复后,状态变换为运行中将恢复计费 部署失败 查看、删除、重新部署 此状态不计费,重新部署成功后变为运行中状态将进行计费,...

灾备规划

云上容灾 为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用。RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

跨地域容灾

说明 云备份服务会自动为每个服务器保留最近24小时的24个恢复点。如果不使用ECS规格,还需要填写CPU、内存信息。此时,阿里云会在后台基于用户选定的时间点将服务器启动。后台容灾演练过程中,实时数据复制不受影响。几分钟后,您会看到容...

连接方式概述

可以用于排查SSH服务异常异常,例如SSHD服务被关闭。可选。可以用于排查SSH服务异常异常,例如SSHD服务被关闭。可选。可以用于排查SSH服务异常异常,例如SSHD服务被关闭。必需 控制台一键登录 支持 不支持,需要安装 云助手Agent,且...

连接方式概述

可以用于排查SSH服务异常异常,例如SSHD服务被关闭。可选。可以用于排查SSH服务异常异常,例如SSHD服务被关闭。可选。可以用于排查SSH服务异常异常,例如SSHD服务被关闭。必需 控制台一键登录 支持 不支持,需要安装 云助手Agent,且...

实时监控

应用服务:应用服务名称 副本数:副本数量 入流量:应用服务的入流量(Byte)出流量:应用服务的出流量(Byte)请求量:应用服务的请求量(分钟)响应时间:应用服务的响应时间(ms)错误率:应用服务的错误率 应用服务实时监控详情 在 ...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

跨地域容灾

生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。本文介绍跨地域容灾的操作步骤。前提条件 在实现跨地域容灾之前,您需要选择一个不同于...

欠费说明

通过本文您可以详细了解阿里云边缘计算服务ENS停服原因和续费规则。...停止服务 说明 停止服务期间您不能对实例进行任何操控,并且实例不会进行任何计算,...结清欠款,恢复服务 用户充值续费后,立即恢复服务。续费相关操作,请参见 产品续费。

故障隔离

配置示例 某应用有 A、B、C 三台服务器,三台服务的状态如下:A:正常 B:异常异常率 20%C:异常异常率 40%已配置的故障隔离规则如下:时间窗口大小:10 时间窗口内最少调用次数:20 异常比例阈值:20 异常比例倍数:1 最大隔离数量:1...

连接方式概述

可以用于排查SSH服务异常异常,例如SSHD服务被关闭。可选。可以用于排查SSH服务异常异常,例如SSHD服务被关闭。可选。可以用于排查SSH服务异常异常,例如SSHD服务被关闭。必需 控制台一键登录 支持 不支持,需要安装 云助手Agent,且...

监控与日志

在 阿里云健康状态 页面中,您可以实时查看阿里云每个地域下云服务的状态是否有异常,以及该服务异常状态的RSS订阅方式。基础云监控 网络智能服务已接入阿里云基础云监控服务供您免费使用,可实现对云资源和互联网应用的各项指标进行实时...

Spark服务异常排查及处理

本文介绍Spark服务异常的排查方法和解决方案。Spark服务日志 当出现Spark服务异常时,您可以查看Spark服务的日志。服务日志目录:EMR-3.40.0之后版本、4.10.1之后版本、5.6.0之后版本:/var/log/emr/spark EMR-3.40.0及之前版本、4.10.1及...

异常

服务异常 print(e)解决异常 错误码 异常信息 解决办法 SDK.InvalidRegionID can not find endpoint to access 旧SDK版本的报错,请将 aliyun-python-sdk-core 升级到最新版本,或检查是否安装了正确的 aliyun-python-sdk-core SDK....

欠费说明

本文为您介绍 可观测链路 OpenTelemetry 版 欠费后的影响和说明。...欠费后通知 服务欠费后有停止服务的风险,可观测链路 OpenTelemetry 版 会通过邮件、短信或...续费后不会恢复已清理的数据,且不会自动恢复服务,您需要在控制台手动开启服务

指标含义与异常处理建议

指标异常原因 监控期间,当区间慢查询耗时,查询数量增大时,服务异常,常见原因如下:指标异常原因 说明 QPS 查询QPS 或 写入QPS 流量突增或波动较大,集群压力大,相对单条查询耗时久。有agg查询或者有脚本查询 聚合查询场景,需要耗用...

错误码

ScreenShareStateError 17040646 桌面共享状态异常 ScreenShareTypeError 17040647 桌面共享调用异常 ScreenShareUnknownError 17040640 桌面共享未知错误 SpeakerInterrupt 17040391 系统性能不足,播放设备媒体服务异常,音频设备被占用...

配置集群报警

当数值不为0时,服务异常。Exception次数(个)可选。当数值不为0时,服务异常。快照状态 可选。当数值为-1或0时,服务正常;为2时,服务异常。单击 确定。报警配置成功后,当配置的事件发生时,指定的报警通知人就可以通过配置的通知方式...

监控与日志

阿里云提供了各种监控与日志审计相关的服务,例如网络智能服务、云监控、配置审计等,帮助您实时监控NAT网关资源的使用情况和业务运行状况,并在收到异常报警时及时响应。问题诊断排查 自助问题排查 NAT网关的自助排查功能可以帮助您排查...

回调事件概述

在使用智能媒体服务媒资上传、媒体处理、云剪辑等服务时,您可通过设置回调事件及时获取任务处理进展和状态,以便进行其他业务操作。通过阅读本文,您可以了解回调方式和回调事件的基本信息。回调方式说明 简介 智能媒体服务支持HTTP请求和...

ALB健康检查异常排查方法

ALB通过健康检查来判断后端服务器的业务可用性,开启健康检查功能后,当某台后端服务器健康检查出现异常时,ALB会自动将新的请求分发到其他健康检查正常的后端服务器上,避免了局部后端服务器异常对总体服务的影响从而保证业务高可用。...

Pod诊断

DNS 服务 ClusterIP 检查集群DNS服务的Cluster IP是否正常分配,集群DNS服务异常会造成集群功能异常,影响业务。请检查CoreDNS Pod运行状态和运行日志。更多信息,请参见 DNS解析异常问题排查。集群NAT网关状态 检查集群NAT网关状态。请...

将报警配置功能接入注册集群

报警配置功能提供容器场景报警能力的统一管理,包括容器服务异常事件报警,以及容器场景指标报警。您可以通过集群内部署CRD的方式配置容器服务的报警规则。本文介绍在注册集群中如何接入报警配置功能及如何配置报警规则。前提条件 通过容器...

监控与日志

阿里云提供了各种监控与日志审计相关的服务,例如云监控、网络智能服务等,帮助您实时监控全球加速资源的使用情况和业务运行状况,并在收到异常报警时及时响应。实例诊断 全球加速接入网络智能服务NIS(Network Intelligence Service),...

容器服务报警管理

报警配置功能提供统一管理容器报警场景的功能,包括容器服务异常事件报警、集群相关基础资源的关键指标报警、集群核心组件及集群中应用的指标报警。支持在创建集群时默认开启报警功能。容器服务的报警规则支持通过集群内部署CRD的方式配置...

产品计费

欠费暂停使用服务后,请于7天内及时充值补足欠费,服务会自动恢复。欠费超过7天,将视为您主动放弃服务,数据会被清理且不可恢复。您可以在 费用中心 查看账户的欠费信息,并通过充值来核销欠款。账号结清欠款后、产品将会恢复服务。续费...

监控与日志

阿里云提供了各种监控与日志审计相关的服务,例如云监控、配置审计等,帮助您实时监控云资源的使用情况和业务运行状况,并在收到异常报警时及时响应。问题诊断排查 阿里云 网络智能服务 NIS(Network Intelligence Service)是为您在云上建...

集群巡检项及解决方案

容器智能运维平台 提供...检查是否存在多个Service复用同一个SLB同一个端口 异常影响:如果多个Service复用同一个SLB的同一个端口,会导致服务异常。解决方案:请修改或删除冲突的Service,确保多个Service复用同一个SLB时使用不同的端口。

Linux实例中关键的系统用户不存在

cp/etc/passwd-/etc/passwd cp/etc/shadow-/etc/shadow 参见 如何通过挂载到ECS实例作为数据盘的方式登录异常系统盘 的步骤五章节,恢复异常ECS实例的系统盘。远程登录已修复的ECS实例,确认ECS实例恢复正常。更多信息 若您没有丢失关键...

压测Spring Cloud服务

打开开关后,会影响到服务压测性能,建议正常压测(非排查服务异常)时关闭。压力配置 页签相关参数说明如下:参数 描述 压测模式 服务压测包括 并发模式 和 TPS模式。并发模式:指虚拟并发用户数,从业务角度,也可以理解为同时在线的用户...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 短信服务 物联网无线连接服务 云服务器 ECS 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用