功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

前言

xrpc 协议插件 xrpc 协议插件的上传和部署 演示开发完私有 XML RPC 协议插件后部署和调用流程。ESB XML 协议插件深度解析 介绍金融场景 ESB 的协议接入。课后练习:通过 MOSN mecha 完成 xrpc 开发 介绍 xrpc 协议、xrpc 协议插件的开发...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

高性能版实例

以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障和计算节点宿...

同城流量封闭实践

开启单元格流量封闭策略 MSHA提供的同城多活架构能力,除了容灾恢复(同城切流)能力外,还针对常见RPC框架(HSF、SpringCloud、Dubbo)提供了单元格流量封闭的能力。下面将电商业务的各个应用,均配置和启用阈值为20%的单元格流量封闭策略...

常见问题

运维管理 容器应用服务常见问题 经典应用服务常见问题 中间件 SOFABoot 常见问题 微服务常见问题 微服务故障排查之 DRM 微服务故障排查之限流 微服务故障排查之 RPC 服务网格-故障排查 消息队列常见问题 任务调度常见问题 分布式链路跟踪...

RPC 常见问题

本文汇总梳理了 RPC 使用过程中遇到的常见问题及排查思路。使用 RPC 客户端调用服务时报错 调用服务时报“RPC-02306:没有获得服务[{0}]的调用地址,请检查服务是否已经推送”错误 排查思路如下:检查服务地址是否推送。登录客户端,查看/...

YARN高可用特性使用指南

基于以上特性,在通常情况下,对于RM单点故障、RM升级或重启、NM升级或重启等常见场景,可以做到应用无感知,任务运行时不受任何影响。依赖服务 YARN高可用特性依赖ZooKeeper服务实现分布式选举与应用信息和状态元数据的存储,保证集群的强...

Mesh 常见问题

本文汇总了使用服务网格时可能遇到的常见问题及解决方案。服务网格目前支持的微服务框架有哪些?服务网格目前支持 Dubbo、SpringCloud 等主流微服务框架。XDS 配置不下发 问题原因:Pilot 未启动或 Pilot 与 MOSN 网络不通。解决方案:查看...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

应用故障自动诊断

常见故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

故障演练

常见故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

新手指引

模块问题 计费常见问题 数据库常见问题 流量统计常见问题 网站管理常见问题 管理控制台常见问题 网站耗资源(客户程序故障常见问题 更多常见问题,请参见 常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

日志说明

special.time.mark 特殊时间点标记 router.forward 路由转发详情(预留字段,暂未启用)RPC 服务端摘要日志 rpc-server-digest.log 是 RPC 服务端摘要日志,日志样例如下:2014-06-19 17:14:35.006,client,0ad1348f140*2750021003,0.1,...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

同城多活常见问题

本文介绍同城多活的常见问题以及解决方案。假设数据库主备,ECS双可用区部署,是否就是同城多活?和EDAS、MSE集群流量同可用区优先的差异和优势?消息是基于Shutdown机制实现多活么?数据库是两个机房各一个主备,还是主机房一主一备,备...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

概述

多种编程界面:支持 XML、动态客户端、Standalone 模式等多种编程界面。流量转发:支持应用之间的流量转发。链路追踪:支持网格外部应用调用网格内部应用并形成一个完整的链路追踪信息 链路数据透传:支持应用调用上下文中存放数据,达到...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

常见问题

本文汇总了分布式链路跟踪服务(DST)在使用过程中的一些常见问题及对应的解决方案。应用正常运行却无法在控制台被展示 多维查询没有结果,或者搜索链路为空 如何配置 tracer,以便按照小时分割 trace 日志?RPC Tracer 打印不出 rpc-...

使用OpenAPI诊断工具进行故障排查

阿里云OpenAPI平台提供使用诊断工具。本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后...如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 获取解决方案。

同城多活架构实践

需具备对故障AZ的RPC、MQ、任务调度流量切零能力。如果业务RT敏感,需具备可用区内流量封闭的能力以避免跨可用区的网络传输带来的RT增长。统一管控难度大。需对接支持众多的云产品和开源框架。切零规则、流量可用区内封闭规则、环境隔离...

什么是应用监控

告警集成 ARMS监控针对JVM、主机、接口服务情况等指标类型,预置了50种以上的告警规则,您可以对这些规则进行灵活的调整与组合,并通过ARMS告警管理,实现告警的收敛、通知、升级、协同处理,确保及时发现并修复线上故障。开源集成 ARMS...

常见问题

本文汇总了 SOFARegistry 使用过程中的一些常见问题及对应的解决方案。RPC 服务端发布之后,为什么在微服务控制台无法找到该服务。问题原因 应用服务器的 IP 地址,不在发布部署参数 rpc_enabled_ip_range 范围内。例如:应用服务器的 IP ...

快速入门

接口需要的相关类与方法如下:/Rpc调用回调 public interface PushRpcListener {/*@param errorCode int rpc调用返回的错误码*@param response String rpc调用返回的response*/void onReply(int errorCode,String response);}/Rpc设置 ...

网站耗资源(客户程序故障常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

数据导入常见问题

本文汇总了StarRocks数据导入的常见问题。通用问题 如何选择导入方式?影响导入性能的因素都有哪些?报错“close index channel failed“或“too many tablet versions”,该如何处理?报错“Label Already Exists”,该如何处理?报错...

探针安装常见问题

常见问题 本文介绍了以下常见问题:AHAS架构感知和故障演练探针limits配置 ECS探针安装常见问题 容器服务安装ack-ahas-pilot常见问题1 容器服务安装ack-ahas-pilot常见问题2 容器服务安装ack-ahas-pilot常见问题3 容器服务安装ack-ahas-...

使用基于OSS创建的Hive外部表进行离线集成

在E-MapReduce5.xHadoop计算引擎下,若您需要将基于OSS创建的Hive外部表在Dataphin...您需要在 core-site.xml 配置文件中添加以下配置:<property><name>fs.jindofsx.namespace.rpc.address</name><value>emr-cluster:8101</value></property>

使用基于OSS创建的Hive外部表进行离线集成

在E-MapReduce5.xHadoop计算引擎下,若您需要将基于OSS创建的Hive外部表在Dataphin...您需要在 core-site.xml 配置文件中添加以下配置:<property><name>fs.jindofsx.namespace.rpc.address</name><value>emr-cluster:8101</value></property>

版本说明

Dcom.alipay.sofa.rpc.compatible.rms3124=true 修复 Spring Framework 版本升级:5.1.14.RELEASE 升级至 5.2.20.RELEASE,Spring RCE 漏洞 在 Spring Framework 的这个版本中被修复。更新 jackson.version 2.11.2 升级至 2.11.4。netty 4....

HDFS Balancer

当需要对Balancer参数进行额外调整时,您可以在E-MapReduce控制台的HDFS服务页面,选择 配置>hdfs-site.xml,调整以下两类配置。客户端配置 参数 描述 dfs.balancer.dispatcherThreads Balancer在移动Block之前,每次迭代时查询出一个Block...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 全局事务服务 (文档停止维护) 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用