可观测性的设计原则

监控系统的指标可以让组织了解系统的健康状况和性能情况,以便在系统出现异常时快速发现问题。监控指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及阿里云提供...

节点异常问题排查

本文介绍关于节点异常问题的诊断流程、排查思路、常见问题及解决方案。本文目录 类别 内容 诊断流程 诊断流程 常见...解决方案 通过节点的监控查看CPU增长曲线,确认异常出现时间点,检查节点上的进程是否存在CPU占用过高的现象。具体操作,...

节点异常问题排查

本文介绍关于节点异常问题的诊断流程、排查思路、常见问题及解决方案。本文目录 类别 内容 诊断流程 诊断流程 常见排查...解决方案 通过节点的监控查看CPU增长曲线,确认异常出现时间点,检查节点上的进程是否存在CPU占用过高的现象。具体操作...

网络架构容灾

开启健康检查功能后,当后端某个ECS实例健康检查出现异常时,负载均衡会自动将新的请求分发到其他健康检查正常的ECS实例上,而当该ECS实例恢复正常运行时,负载均衡会将其自动恢复到负载均衡服务中。为了使健康检查功能正常运作,需要开启...

配置熔断规则

常用场景2:异常熔断示例 例如第三方内容展示系统出现异常,当异常比例较高,可以对其进行熔断操作,以保证更好的用户体验。在 新增熔断规则 或 新增规则 对话框中配置以下示例规则信息。参数 示例值 描述 接口名称 test 接口名称...

配置熔断规则

常用场景2:异常熔断示例 例如第三方内容展示系统出现异常,当异常比例较高,可以对其进行熔断操作,以保证更好的用户体验。在 新增熔断防护规则 对话框中配置以下示例规则信息。参数 示例值 描述 接口名称 test 接口名称。统计...

事务执行状态说明

已回滚:事务结束,事务执行的数据变更已回滚 异常 提交异常:一阶段结束,二阶段处理提交操作时出现异常 回滚异常:一阶段结束,二阶段处理回滚操作时出现异常 回查异常:一阶段结束,二阶段处理回查业务接口时出现异常

EIP实例诊断

出现访问异常时系统会为您提供访问异常的可能原因,以及对应的排查方案和建议。更多信息,请参见 公网诊断结果。诊断项详情 实例诊断项及详情 EIP 实例支持的诊断项及说明如下:诊断项分类 具体诊断项及说明 配置诊断 实例业务状态检查...

使用实例诊断

出现访问异常时系统会为您提供访问异常的可能原因,以及对应的排查方案和建议。实例诊断项 主要诊断内容如下表所示:诊断项 说明 健康检查诊断 检查负载均衡实例监听的健康检查状态。配置诊断 检查实例的状态以及各项配置是否正常。...

流量防护

规则开启后,在单位统计长内业务异常数目大于设置的 最小请求数目,并且异常的比例大于阈值,则接下来的 熔断长(s)内请求会自动被熔断。熔断长(s)单击 显示高级选项 后配置。即熔断触发后持续的时间。资源进入熔断状态后,在配置...

异常类型说明

在预测某条时间序列时出现异常。您可以通过 result.error_type 和 result.error_msg 字段查看异常信息。tag_:_data_type_字段值为job_error_message。result.entity 和 result.metric 字段都为空。预测ID对应的那次预测出现异常。您可以...

管理限流降级规则

Serverless 应用引擎 SAE(Serverless App Engine)集成 微服务引擎 MSE(Microservices Engine)的限流降级能力,以流量为切入点,从流量控制、熔断降级、系统负载保护等多个维度来保障业务的稳定性,提供专业稳定的流量防护手段、秒级的...

错误码查询

错误码 错误信息 原因 解决方案 10009999 系统异常,请稍后重试 平台内部系统出现异常 记录请求的RequestId,通过钉钉群联系工程师解决 10009008 启动数字人失败,请稍后重试 平台内部系统出现异常 记录请求的RequestId,通过钉钉群联系...

异常类型说明

本文介绍下探分析结果的异常类型。下探分析结果数据保存在名为internal-ml-log的Logstore中。您可以通过数据中的_tag_:_data_type_字段分析异常情况。...在下探分析时出现异常。您可以通过 result.message 字段查看异常信息。

如何修复异常DBS备份计划

说明 任务出现异常时,DBS不会直接启动异常任务,以免影响客户业务。为了确保您的业务正常进行,备份计划出现异常时,建议您及时排查问题原因。如果参考本文提供的解决方案后仍无法解决问题,请到 DBS客户咨询群(钉钉群号:35585947)进行...

通过智能洞察排查异常情况

相关文档 为避免在出现异常后被动诊断异常原因,您还可以使用智能洞察的订阅功能针对不同的事件类型添加订阅规则,即可在出现异常时向运维团队发送通知。创建订阅规则的操作,请参见 订阅规则。智能洞察内置了多种巡检模块,您可以根据巡检...

Pod动态上下线

在线上微服务场景中,当服务提供者的某些实例出现异常时,一方面,需要避免服务消费者访问到异常实例,另一方面,需要保留异常现场,便于后续的问题排查。本文介绍如何将异常Pod实例下线,帮助您及时将异常实例从注册中心摘除。操作步骤 ...

异常:文件不是有效的SAR文件

问题现象 机器人执行应用时出现异常,提示“文件不是有效的SAR文件”。原因排查及解决办法一 杀毒软件限制:查看电脑是否有360、Macfee等杀毒软件,若有杀毒软件,把RPA软件要安装的目录文件和Temp目录文件夹加入白名单,还有appdata文件下...

网关辅助类使用说明

在业务方出现异常时会被调用。MobileServiceInterceptor MobileServiceInterceptor 继承了框架的 Ordered 接口,因此,业务方实现的拦截器还可以通过实现 getOrder 方法指定执行顺序,设置的数值越小,执行的优先级越高;设置的数值越大,...

启动实例提示Give root password for maintenance或...

Linux系统里的/etc/fstab 配置文件主要用于保存服务器的磁盘挂载信息,如果该配置文件中写入不正确的挂载信息或者该文件自身存在访问错误,系统启动就可能出现异常,导致ECS实例启动失败。etc/fstab 配置文件格式错误可能有以下原因:...

基于Client SDK数据写入

setRetryTimes(int retryTimes)设置commit时,写入 AnalyticDB PostgreSQL版 出现异常时重试的次数,默认为3。setRetryIntervalTime(long retryIntervalTime)设置重试间隔的时间,单位是ms,默认为 1000 ms。setCommitSize(long commitSize...

在程序中通过AnalyticDB MySQL版Client高效写入数据到...

setRetryTimes(int retryTimes)设置提交时写入 AnalyticDB MySQL版 2.0集群出现异常时重试的次数,默认为0。setRetryIntervalTime(long retryIntervalTime)设置重试间隔的时间,单位是ms,默认为0。setCommitSize(long commitSize)设置自动...

修复单台JournalNode异常

当您的集群中只有一个节点上的JournalNode服务出现异常时,可以尝试从其他节点恢复。本文介绍如何从其他节点恢复异常的JournalNode服务。操作步骤 找到健康状态的JournalNode。您可以通过HDFS WebUI查看JournalNode的状态,详细信息请参见 ...

AIMaster:弹性自动容错引擎

除了对任务容错信息通知外,当您判断任务训练出现异常时,比如loss出现Nan,也可以在代码中使用AIMaster SDK发送自定义通知消息,如下所示 说明 本功能需要安装AIMaster whl包,详情请参见 常见问题解答。from aimaster import job_monitor...

异常检测

及时发现数据库的异常问题是数据库日常运维的重点。数据库自治服务DAS提供异常检测功能,基于...相关文档 您可以利用DAS的自治功能,在数据库出现异常时进行自动处理。自动SQL限流 自动SQL优化 自动性能扩展 自动空间扩展 空间碎片自动回收

小程序监控

应用打开异常量 用户在应用中打开小程序页面时出现异常的次数。白屏率 白屏指小程序页面无任何内容,完全空白。白屏率=页面白屏数/页面打开次数 x 10000‱ JS 异常报错率 JS 异常报错率=JS 异常数/页面访问量 x 1000‰ JSAPI 异常量 小程序...

iOS SDK集成

功能时序图 功能实现 初始化RTC引擎及回调注册 说明 SDK出现异常时内部会优先进行重试恢复,需要业务处理的异常SDK会通过明确的回调API通知。异常发生原因 回调及参数 解决方案 备注 鉴权失败 onJoinChannelResult回调result返回...

Linux实例的/etc/fstab文件配置错误导致系统启动异常

阿里云对第三方产品的性能、可靠性以及操作可能带来的潜在影响,不做任何暗示或其他形式的承诺 问题描述 通过远程连接软件无法登录Linux实例,通过 使用管理终端连接Linux实例 远程连接,发现系统出现进入到急救模式(emergency mode)的...

诊断项与诊断结果说明

实例操作系统异常 实例操作系统出现了内核Panic、OOM异常或内部宕机等故障。检查该实例的操作系统(Guest OS)内部是否存在内核Panic、OOM异常或内部宕机等故障。此类故障可能是由于实例配置不当或用户空间的程序配置不当导致的,您可以...

实例画像

数据库自治服务DAS...单击 立即处理,进入 风险处理 页面,查看数据库实例各个维度的评分和诊断结果,当出现异常与缺陷系统将给出对应自治功能使用建议,单击 立即处理 跳转到自治功能页面,根据使用建议完成相关自治功能的配置。

实例画像

数据库自治服务DAS...单击 立即处理,进入 风险处理 页面,查看数据库实例各个维度的评分和诊断结果,当出现异常与缺陷系统将给出对应自治功能使用建议,单击 立即处理 跳转到自治功能页面,根据使用建议完成相关自治功能的配置。

实例画像

数据库自治服务DAS...单击 立即处理,进入 风险处理 页面,查看数据库实例各个维度的评分和诊断结果,当出现异常与缺陷系统将给出对应自治功能使用建议,单击 立即处理 跳转到自治功能页面,根据使用建议完成相关自治功能的配置。

Android SDK集成

功能时序图 功能实现 初始化RTC引擎及回调注册 说明 SDK出现异常时内部会优先进行重试恢复,需要业务处理的异常SDK会通过明确的回调API通知。异常发生原因 回调及参数 解决方案 备注 鉴权失败 onJoinChannelResult回调result返回...

订阅事件通知

云监控的报警服务为您提供以下两种报警通知能力,当阿里云产品发生系统异常时,您可以及时知晓发生的事件,并自动处理异常事件(例如云产品故障)。通过 短信、邮件、钉钉机器人的方式,对事件发生进行报警。将事件分发到您的URL回调中,...

订阅事件通知

云监控的报警服务为您提供以下两种报警通知能力,当阿里云产品发生系统异常时,您可以及时知晓发生的事件,并自动处理异常事件(例如云产品故障)。提供通过 短信、邮件、钉钉机器人的方式,对事件发生进行报警。提供将事件分发到您的消息...

创建事件报警规则

本文为您介绍如何创建事件报警规则和调试系统事件,以便在E-MapReduce发生系统异常时,您能及时接收报警通知并处理异常。前提条件 如果事件报警规则需要作用于指定应用分组的实例上,则请确保您已创建应用分组,且已将资源添加至该应用分组...

订阅事件通知

云监控的报警服务为您提供以下两种报警通知能力,当阿里云产品发生系统异常时,您可以及时知晓发生的事件,并自动处理异常事件(例如云产品故障)。提供通过 短信、邮件、钉钉机器人的方式,对事件发生进行报警。提供将事件分发到您的消息...

Agent 管理

开启告警 Agent 管理模块现提供异常告警能力,当 Agent 异常时,比如未安装、失联等情况出现时系统会针对异常 Agent 提供对应的告警通知,让运维人员快速感知到异常问题。左侧导航栏上,单击 设置>Agent 管理。在 Agent 管理 页,选择...

订阅事件通知

云监控的报警服务为您提供以下两种报警通知能力,当阿里云产品发生系统异常时,您可以及时知晓发生的事件,并自动处理异常事件(例如云产品故障)。提供通过 短信、邮件、钉钉机器人的方式,对事件发生进行报警。提供将事件分发到您的消息...

订阅事件通知

云监控的报警服务为您提供以下两种报警通知能力,当阿里云产品发生系统异常时,您可以及时知晓发生的事件,并自动处理异常事件(例如云产品故障)。提供通过 短信、邮件、钉钉机器人的方式,对事件发生进行报警。提供将事件分发到您的消息...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 文件存储 CPFS 云安全中心 Web应用防火墙 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用