代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

本地混流

推流SDK默认只支持一路视频流,开启本地混流后可以采集多路视频流和一路音频流,并按照需要调整这些视频流的位置和大小。请在采集音视频之前开启。videoEffectManager.enableMixing(true);详细信息,请参见API enableMixing。设置混流输出...

实时分析链路数据

单机故障每时每刻都在频繁发生,特别是核心集群由于节点数量比较,从统计概率来看几乎是一种“必然”事件。单机故障不会造成服务大面积不可用,但是会造成少量的用户请求失败或超时,持续影响用户体验和答疑成本,需要及时处理。单机故障...

应用场景

通过分析设备元数据来实时监控设备的运转状态,出现异常及时响应,避免故障发生等。在工业生产过程中对数据存储与分析的需求如下:数据存储:设备状态数据定时上报,通过数据网关上云存储,需要支持海量设备元数据存储,可能达到千万级甚至...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

Mesh 常见问题

故障注入未生效 故障注入可能发生在客户端,也可能发生在服务端,通常用来注入一段时间异常或者直接注入异常。注入规则没生效时,先检查自己的注入规则是否配置正确,如客户端注入需填写客户端的应用名,服务端注入需填写服务端的应用名。...

链路状态

发生故障时,及时进行切换。操作步骤 登录 智能接入网关控制台。在 智能接入网关 页面,单击目标实例ID。在智能接入网关实例详情页面,单击 高可用配置,可查看链路状态。绿灯:表示链路正常。红灯:表示链路故障。icmsDocProps={'...

如何实现文件中的日志被采集多

背景信息 当个Logtail采集配置匹配同一个文件时,会导致多倍的CPU、内存、磁盘IO和网络IO资源占用,将影响同一台服务器部署的其他服务性能,因此默认情况下,一个文件只能匹配一个Logtail采集配置。解决方案 将日志数据存储到不同...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

单实例快速恢复

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。节点恢复速度在一分钟左右,当表数量明显增加时,恢复时间会更长。Hologres...

同城容灾架构概述

非机房级故障(某个机房的单产品故障,例如其中一个机房的ECS服务器损坏),可以通过对单产品的灾备设计来保障发生故障时系统及时切换。应用设计相关参考标准 应用设计相关参考标准如下:无状态化。分布式集群设计、避免单点逻辑出现。幂等...

设置宕机自动迁移

若您未开启宕机自动迁移,DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。警告 本地SSD型DDH(例如本地SSD型i2)不支持自行手动迁移和故障时自动迁移。如果本地SSD型DDH出现故障,您可以 提交工单 申请人工迁移,但迁移后本地...

如何通过 mPaaS 框架解决 App 线上问题

如果真的在线上发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

友盟创建应用及埋点

说明:客户端SDK用于采集发生在APP中的终端用户行为。友盟SDK接入增量行为数据的优势:1.接入成本更低:有成熟的埋点事件,SDK有埋点接口和文档指导客户埋点,无需关注上报问题;2.容错性高:直接将数据上报,无需通过层层数据传递;在采集...

云盘异步复制概述

启动云盘异步复制功能 通过异步复制功能实现容灾恢复 您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行容灾恢复。通过异步复制功能实现容灾恢复 删除云盘异步复制关系 创建...

如何通过完整正则模式采集多种格式日志

如果文件中的日志需要被采集多份,请参见 如何实现文件中的日志被采集多份。Schema-On-Read:使用它们共同的正则表达式来采集。例如采用行日志采集,将时间和日志等级作为行首正则,剩余部分为message。如果希望进一步分析message,可以...

采集客户端数据的高可用方案

本文介绍日志服务从客户端采集数据的两个高可用方案,包括双写方案和数据加工复制+写入切换方案。背景 在单集群环境下,日志服务存储采用三副本机制来保证数据的可靠性,即每份数据都有3个副本,副本按照一定的分布式存储算法保存在集群的...

服务发布策略

当新版本v2存在问题或者发生故障时,可以快速切回旧版本v1。蓝绿部署的优点:部署结构简单,运维方便。服务升级过程操作简单,周期短。蓝绿部署的缺点:资源冗余,需要部署两套生产环境。新版本故障影响范围大。A/B测试 A/B测试基于用户...

同城活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

Helm版本说明

优化基础指标采集Job单独固定采集周期和采集超时设置,不再使用Global配置,减少对基础指标采集受到的不必要干扰。优化Master-Slave副本模式下互相影响的逻辑,Master与Worker,Worker与Worker之间不再互相影响,提升稳定性。优化Master...

Helm版本说明

优化基础指标采集Job单独固定采集周期和采集超时设置,不再使用Global配置,减少对基础指标采集受到的不必要干扰。优化Master-Slave副本模式下互相影响的逻辑,Master与Worker,Worker与Worker之间不再互相影响,提升稳定性。优化Master...

通过Uptime实时监控阿里云Elasticsearch服务

当某个区域的Heartbeat发生故障个监视位置可以帮助您定位Heartbeat故障的区域。更多部署架构,请参见 Deployment Architecture。准备工作 创建阿里云Elasticsearch实例,并开启自动创建索引功能。具体操作,请参见 创建阿里云...

ack-arms-prometheus

优化基础指标采集Job单独固定采集周期和采集超时设置,不再使用Global配置,减少对基础指标采集受到的不必要干扰。优化Master-Slave副本模式下互相影响的逻辑,Master与Worker,Worker与Worker之间不再互相影响,提升稳定性。优化Master...

容灾管理服务介绍

针对有高可用需求的用户,CADT容灾管理服务提供规划、优化、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行容灾演练,验证系统是否能够抵御资源故障或者AZ故障,保障系统健壮性。主要功能 容灾规划 在用户部署资源前,通过...

流水单据型业务场景活实践

在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复。说明 这里区别于传统的解决思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦。容灾切换...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

实例的节点故障处理机制

副本集架构 副本集实例提供个节点供用户访问,当其中的某个节点发生故障后,系统会使用Secondary节点或隐藏节点替换故障节点继续提供服务,并对故障节点进行检查与修复。该过程对用户完全透明,可能会产生1次30秒内的连接闪断,建议您在...

采集主机文本日志

本文介绍如何使用Logtail采集主机文本日志。前提条件 已创建Logtail机器组并添加相应服务器,创建机器组的步骤,请参见 创建用户自定义标识机器组(推荐)或 创建IP地址机器组。安装Logtail的主机需开放80(HTTP)端口和443(HTTPS)端口。...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

日志应用

针对SLB、ALB、OSS、PolarDB-X 1.0、VPC和DNS,可以有个区域化Project,名为slsaudit-region-中心化主账号ID-各个采集的地域,例如:slsaudit-region-117938634953*-cn-beijing。无法通过控制台删除区域化Project,只能通过命令行、API...

使用前须知

针对SLB、ALB、OSS、PolarDB-X 1.0、VPC和DNS,可以有个区域化Project,名为slsaudit-region-中心化主账号ID-各个采集的地域,例如:slsaudit-region-117938634953*-cn-beijing。无法通过控制台删除区域化Project,只能通过命令行、API...

Logtail采集日志失败的排查思路

使用Logtail采集日志后,如果预览页面为空或查询页面无数据,您可以根据本文步骤进行排查。操作步骤 确认日志文件是否有更新。Logtail只采集增量的日志。更信息,请参见 读取文件。如果下发Logtail配置后,日志文件无更新,则Logtail不会...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

设置Logtail启动参数

为防止Logtail消耗过多服务器资源,影响其他服务运行,日志服务对Logtail采集性能做了限制。当您需要提升Logtail采集性能时,可修改Logtail启动参数。设置场景 遇到以下场景时,可修改Logtail启动参数。需要采集的日志文件数目大(同时采集...

通过DaemonSet方式采集Kubernetes容器文本日志

如果在容器停止前,出现因网络延迟、资源占用等原因导致的采集延时,可能会丢失容器停止前的部分日志。containerd:当容器被停止时,Logtail会持续持有容器内文件的句柄(即保持对日志文件的打开状态),直至所有日志文件内容发送完毕。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 物联网平台 视频点播 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用