选择 触发故障 需要配置故障影响服务、故障等级覆盖。配置完成之后点击 提交即可。仅触发报警:确定 报警触发规则:设置触发的持续时长和次数对报警进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发报警,只要将时长和次数分别设置...
命令结果中的IsMutable列查看是否支持动态配置。如果是修改MasterOnly的配置项,则该命令会直接转发给Master FE并且仅修改Master FE中对应的配置项。通过该方式修改的配置项将在FE进程重启后失效。更多该命令的帮助,可以通过 HELP ADMIN ...
您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 ...
您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介 故障注入流程如下所示:在微服务中,其实现方式为:管控...
DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。...用户侧交换机配置故障。用户侧交换机和设备的连线问题。处理方法 检查用户侧交换机。icmsDocProps={'productMethod':'created','language':'zh-CN',};
P2 10分钟内总体成功率下跌30%~45%P3 10分钟内总体成功率下跌30%以下 P4 故障场景监控覆盖 基于故障等级定义场景,配置对应的监控项接入7*24监控值班,同时对接入的监控数据额外提供基于算法的智能告警,或者接入研发可自闭环的风险预警,...
故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...
下文以配置Pod诊断为例,介绍如何配置故障诊断功能。登录 容器计算服务ACS管理控制台,在左侧导航栏选择集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 巡检和诊断>故障诊断,并按照对话框提示进行授权。在 故障诊断 ...
本文介绍如何配置故障注入。前提条件 已完成准备工作,并部署httpbin服务和sleep服务。具体操作,请参见 准备工作。操作步骤 验证服务配置。在ACK集群对应的KubeConfig环境下,执行以下命令,进入sleep环境开启bash。kubectl exec-it ...
本文介绍如何配置故障注入。前提条件 已完成准备工作,并部署httpbin服务和sleep服务。具体操作,请参见 准备工作。操作步骤 验证服务配置是否生效。在ACK集群对应的KubeConfig环境下,执行以下命令,进入sleep环境开启bash。kubectl exec-...
本文介绍如何配置故障注入。前提条件 已完成准备工作,并部署httpbin服务和sleep服务。具体操作,请参见 准备工作。操作步骤 验证服务配置。在ACK集群对应的KubeConfig环境下,执行以下命令,进入sleep环境开启bash。kubectl exec-it ...
本文介绍如何配置故障注入。前提条件 已完成准备工作,并部署httpbin服务和sleep服务。具体操作,请参见 准备工作。操作步骤 验证服务配置是否生效。在ACK集群对应的KubeConfig环境下,执行以下命令,进入sleep环境开启bash。kubectl exec-...
容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...
故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...
配置端口报警规则 您可以配置物理端口报警规则,当物理专线故障时,系统根据您配置的报警规则发送报警通知,帮助您快速获取物理端口异常情况,避免影响业务。说明 以下内容介绍通过高速通道管理控制台配置物理端口报警规则。通过云监控控制...
配置完成后,系统会假设在此配置的地址池故障,并按照您配置的访问策略执行切换。5.执行 创建容灾预案完成后,您需要到容灾预案列表页,操作区域单击 执行 按钮。系统则会将故障地址池中的地址全部设置为 永远离线 的工作模式,地址池状态...
配置基础告警规则 历史年份 表 1.2022年 功能名称 功能概述 发布时间 发布地域 相关文档 通用型NAS容量监控 通用型NAS支持容量监控,通过云监控服务可实时监控文件系统实例的存储概况,包括通用型NAS数据量(不含低频介质)、低频介质数据...
当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...
健康检查 针对地址池,可以配置健康检查,开启健康检查是指对地址池中的IP地址配置健康检查,开启后可实现实时监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查支持的方式:ping、tcp、http(s)。...
本文通过示例为您介绍E-MapReduce中的Flume组件,如何配置拦截器(Interceptor)、Channel选择器(Channel Selector)和Sink组逻辑处理器(Sink Processor)。拦截器 拦截器的位置在Source和Channel之间,用于修改或丢弃Event。拦截图示意...
基本配置 基本配置是指对创建的GTM实例进行基本配置及访问策略类型选择,基本配置包含“实例名称、CNAME接入域名类型、业务域名、全局TTL、报警通知组、报警通知方式相关信息”,访问策略类型包含“基于地理位置的访问策略”和“基于访问...
全部地域 2021-09-15 故障场景参数分层 将故障场景的配置参数分为故障配置(故障的基础参数配置)、影响范围(故障的爆破半径)、通用配置(场景通用参数,如“debug日志开关”等)、流程配置(节点等执行方式手动/自动、容忍度等),从而...
配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理 不支持 不支持 专属技术服务经理(TAM)健康检查 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...
ListProblemOperations 故障动态 集成配置 API 描述 CreateIntegrationConfig 创建集成配置 ConfirmIntegrationConfig 确认集成 DisableIntegrationConfig 禁用集成配置 EnableIntegrationConfig 启用集成配置 GetIntegrationConfig 获取...
案例实践一:精准流量灰度 业务需求 从历史故障来看,超过一半的故障是由发布变更导致的。如果发布流程增加灰度流程以及灰度时长,那么这些故障是有机会提前被发现和避免的。因此为了降低代码或配置变更后一次性全量发布上线可能造成的影响...
在多活容灾的 监控大盘 页面 同城多活 区域,查看故障演练前配置的路由规则。本示例中杭州地域的各个单元格流量比例为50%。示例的MSHA商城商品应用链路如下图所示,UserID为1000的用户路由到单元格B。对杭州域单元格B下的商品应用注入故障...
在多活容灾的 监控大盘 页面 异地双活 区域,查看故障演练前配置的路由规则。本示例中UserID为0~6652之间的用户会路由到杭州中心单元,UserID为6653~9999之间的用户会路由到北京单元。示例的MSHA商城下单应用链路如下图所示,当UserID为...
netstat-na|grep 9880 若连接正常,但是未收到故障注入规则,检查 MOSN 配置的租户信息是否和 DsrConsole 里面的租户信息对应。如果不对应,则修改为 MOSN 里面的租户。故障隔离未生效 故障隔离生效链路:DSRConsole>DRM>MOSN。首先登录微...
在多活容灾的 监控大盘 页面 异地双活 区域,查看故障演练前配置的路由规则。本示例中UserID为0~1575之间的用户会路由到杭州单元,UserID为1576~9999之间的用户会路由到北京单元。示例的MSHA商城商品应用链路如下图所示,UserID为1000的...
跟踪是一种重要的配置机制,您可以使用跟踪功能,将云服务中发生的事件保存到指定的OSS存储空间或SLS Logstore中,以便后期分析和长期存储。操作审计仅默认为每个阿里云账号记录最近90天的事件,您必须创建跟踪才能记录更长时间的事件,...
2.服务范围 运维产品范围:阿里公共云云产品(详见 附录一:运维服务产品清单)阿里云运维服务范围 包含:阿里云 产品使用咨询、问题处理、故障救援、配置指导、最佳实践等。阿里云 产品相关的操作或系统问题的技术指导。阿里云 管理控制台...
为了便于故障自愈和优雅上下线,Liveness存活探针的各参数配置应当保证应用可以正常启动,若应用正常启动时间较长,可以配置更长的首次启动延迟时间(InitialDelaySeconds)。相关文档,请参见 配置应用生命周期的钩子和探针 如果部署的...
当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...
Error 事件 故障事件 设备主动上报故障事件 按需 App和设备开发者需要关注并处理该物模型 抓图功能开发 开发抓图功能时,您需要配置的物模型如下。标识符 功能类型 功能名称 描述 控制台勾选 开发指南 TriggerPicCapture 服务 触发设备抓图...
事件名称 事件含义 AddProblemServiceGroup 新增故障应急协同组。BillingStatistics 计费展示。CancelProblem 故障取消。CheckWebhook 校验Webhook。ConfirmIntegrationConfig 确认集成配置。Create 登录产品售卖页面进行的购买操作。...
分布式链路 分布式链路帮助运维人员、开发人员和架构师看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、...
故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...
故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...
重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...
变更实例配置 多存储介质支持 Tair内存型 性能为开源社区版Redis的2~3倍,并具备4倍Lua并行运行能力。内存型 Tair持久内存型 性能与开源社区版Redis一致,成本约为0.7倍,依赖特殊硬件实现命令级持久化。持久内存型 Tair ESSD型 使用ESSD...