故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

CLB访问日志功能简介

CLB结合阿里云日志服务提供的访问日志功能,可帮助您大幅提升日志数据分析故障定位处理的效率。什么是CLB访问日志 CLB的访问日志功能收集了所有发送到CLB的请求的详细信息,包括请求时间、客户端IP地址、延迟、请求路径和服务器响应等。...

Quick BI怎样使趋势分析表的形展示默认展开或关闭

详细信息 趋势分析表由趋势分析图和趋势分析明细表组成,您可以通过趋势分析图查看指标的宏观趋势,然后通过趋势分析表查看指标详情,帮助您更好的分析决策。用户可以根据自己需要设置该形展示的默认关闭或开启,首先进入仪表板的编辑...

趋势分析

趋势分析表由趋势分析图和趋势分析明细表组成,您可以通过趋势分析图查看指标的宏观趋势,然后通过趋势分析表查看指标详情,帮助您更好的分析决策。本文为您介绍如何为趋势分析表添加数据并配置样式。前提条件 已完成数据建模,数据集必须...

应用场景

基因数据分析 为任意规模用户,提供开箱即用的基因分析服务,效率高,成本低,灵活可靠,最快30分钟即可获取海量数据的计算结果。提供常用的生信流程和最佳参数配置,直接读写对象存储OSS数据,使用简单方便。使用GPU/FPGA等多种加速工具,...

应用场景

阿里云Elasticsearch能够通过Beats、Logstash等组件,快速对接各种常见数据源,提供弹性可扩展的集中采集和开箱即用的存储分析能力。并借助Kibana仪表盘,高效地构建数据可视化运维看板,并在看板中灵活地配置主机名称、IP地址、部署情况、...

通用性能

告警 支持主流协议 Snmptrap、Syslog、PING(同时支持采集性能告警)告警解析能力:支持 实时计算引擎,1万记录数/秒的分析入库 故障收敛能力:支持 按照规则和拓扑压缩归并 诊断自愈能力:支持 执行预分析和自动化管控任务,设备场景做到1...

故障协同处理(基于钉钉)

本文主要介绍什么故障协同处理。云钉运维故障协同效果 功能概述 移动应用端(目前仅支持“钉钉”,以下功能说明均基于钉钉场景)支持接收故障消息提示和进行故障操作,且支持移动端操作管理故障,操作记录实时同步到 运维事件中心 控制台...

什么是云网管

什么选择CMN云网管 云网管(CMN)致力于打造完整网络资源及其承载业务的自动化和智能化运维体系,快速实现网络跨厂商、跨业务的异构资源一站式集中管理、监控、排障和运行分析,具备资源自动识别、网络运维观测、管理大盘视图、设施拓扑...

质检规则配置

例如下图,命中正则表达式:买.*(ssd盘|普通盘),排除正则表达式:不了|不能|不生效,所以结合起来就是只匹配用户购买产品的场景,但是要排除掉故障报修的场景,示例语句:我想买一块ssd盘,应该怎么操作(可命中)/我前两天买了ssd盘...

集群系列

可靠性更强的备节点 阿里云技术团队通过云原生技术对RDS进行了一系列深度优化,进一步提升了RDS MySQL集群系列实例备节点的可靠性:重构RDS高可用系统,将备节点的故障发现时长从分钟级优化到秒级。基于EBS(Elastic Block Storage)提供的...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

使用平台公共应用

基因分析平台的 应用仓库 提供了不同研究领域和分类的公共应用,这些都是权威的、经过验证的行业最佳实践,并且提供了常见的运行参数,真正的帮助用户实现开箱即用的基因数据分析。浏览公共应用 用户可以通过关键字搜索、按照研究领域和...

跟踪概览

跟踪是一种重要的配置机制,您可以使用跟踪功能,将云服务中发生的事件保存到指定的OSS存储空间或SLS Logstore中,以便后期分析和长期存储。操作审计仅默认为每个阿里云账号记录最近90天的事件,您必须创建跟踪才能记录更长时间的事件,...

诊断决策

对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策 登录高可用管理控制台。在左侧导航栏上,单击 故障诊断>诊断决策。单击 新建,在 创建诊断决策 页面,配置诊断决策信息,包括决策...

事件分析概述

功能优势 开箱即 事件总线EventBridge 支持提供的数值检索、可视化分析、多组态分析、事件轨迹、事件溯源和Schema管理等核心能力,无需额外部署,即开即。数值检索:提供基础数值检索能力,支持键入 key、value、=、!exists、AND、OR ...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练...

缓存分析

数据库自治服务DAS支持缓存分析功能,通过分析Redis的备份文件,可以快速发现实例中的大Key,帮助您掌握Key在内存中的占用和分布、Key过期时间等信息,为您的优化操作提供数据支持,帮助您避免因Key倾斜引发的内存不足、性能下降等问题。...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可能力。

什么是用户体验监控

ARMS 用户体验监控(Real User ...可视化 除了满足常规问题分析的控制台页面外,用户体验监控 通过ARMS Grafana强大的可视化能力为您预置了开箱即用的场景化大盘看板,您也可以根据自身业务分析要求通过ARMS Grafana自定义大盘看板。

步骤七:故障切换

该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。故障恢复类型 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再...

如何管理故障

改进分析 改进分析用于记录管理故障恢复后的故障复盘。当故障处于复盘中/已复盘状态时,故障详情默认进入故障改进分析tab页;可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

MSE注册配置中心和自建注册配置中心对比

高可用 多可区部署,故障自动检测及恢复,SLA保障率高达99.95%。需自行探索和开发高可用保障体系,对团队技术要求高。性能 深度优化,TPS性能提升40%、QPS性能提升55%。需自行调优。监控告警 可对集群状态、服务数、配置数、TPS、请求...

什么是消息演练

AHAS提供了强大且高灵活度的故障演练功能,可以根据不同的场景注入对应的故障类型。为了使您的演练服务更便捷,故障演练还提供消息演练功能。本文介绍消息演练的基本概念。消息演练概述 目前市面上有RocketMQ、Kafka、RabbitMQ等流行的消息...

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

故障演练常见问题

仅对下发成功的故障规则进行计费,所以执行一次演练的费用是在演练执行成功后进行计算的,会去除下发失败的故障规则。故障不生效是否计费?计费。故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故...

功能优势

AHAS Chaos 支持一次演练包含多个定义的故障场景,同时您可以定制这些场景的运行方式,选择依次进行故障注入或同时注入多个场景,通过不同的策略配置来达到不同的故障注入效果。丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

设计方案

而红军则需要按照预先定义的故障响应和应急流程进行处置。在演练结束后,建议针对故障中的发现、响应、恢复三个阶段的时长和操作内容进行复盘,并梳理改进点进行优化,提升业务系统的稳定性。突袭演练 突袭演练是一种手段以及目标对红军不...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

故障止损恢复

快恢预案推荐 通用的故障恢复方法一般包括 重启、回滚、扩容、切流、限流、降级 等。快恢的执行效率很大程度取决于是否有完备的预案和定期演练。建议在故障应急协同群中推荐输出常见的快速恢复能力,并提供PC、手机端的一键快速执行能力,...

基础分析

该功能帮助企业从宏观层面洞察呼叫中心的运营情况,并挖掘通话内容的关联性,从而分析出话题之间的对应关系,还支持基于业务对通话内容进行下钻,分析相应变化趋势。基础分析数据维度 在基础分析功能中系统支持以时间维度、技能组、对话...

Quick BI中指标拆解的子节点百分比是什么意思

概述 Quick BI中指标拆解的子节点百分比是什么意思?详细信息 在图表的所有类型中可以选择到指标拆解图表。默认条件下子节点百分占比的意思为:以子节点的所有数据中最大的一个数据作为分母,来计算其他各个数据所占的百分比。在样式-...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

即席分析概述

即席分析面向一线业务人员,以表格形式提供拖拽式的表格分析能力,让懂业务的人自助实现数据分析。即席分析只适用于Quick BI专业版的群工作空间下,个人空间不支持。产品定位 千万级别规模数据量下的低门槛数据探查及分析工具。核心能力 ...

功能更新记录

2021年10月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 微服务强弱依赖支持Dubbo 在应用强弱依赖治理的基础上,微服务强弱依赖治理功能,通过接入MSE,可分析出应用所依赖的Dubbo服务,并能够快速发起方法级别的故障注入(支持...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
检索分析服务 Elasticsearch版 云安全中心 实时数仓 Hologres 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用