如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

一键诊断

在数据库出现故障时,您可以利用一键诊断功能,快速诊断选定时间段内数据库性能情况,直观地查看数据库性能情况的全貌,快速定位异常原因。前提条件 实例为如下版本:RDS MySQL 8.0 高可用系列或集群系列 RDS MySQL 5.7 高可用系列或集群...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理故障等级定义、应急场景监控覆盖、服务组&值班表管理故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集 图 1.副本集架构 ...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

组件中心

中间件 分布式链路跟踪 一款实时监控并管理企业应用性能和故障的云服务,其提供数字化性能管理解决方案,帮助企业在分布式架构下快速发现并准确定位应用全生命周期的性能问题。任务调度 提供分布式任务调度框架,实现任务的分布式处理,并...

应用场景

当其中一部分ECS实例发生故障后,CLB 会自动屏蔽故障的ECS实例,将请求分发给正常运行的ECS实例,保证应用系统仍能正常工作。同城容灾(多可用区容灾)为了提供更加稳定可靠的 CLB 服务,CLB 已在各地域部署了多可用区以实现同地域容灾。当...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

查看作业结果

在左侧导航栏,选择 作业与性能管理>作业。单击目标作业列表右侧 详情,可以查看作业详细信息。查看作业性能指标。在左侧导航栏,选择 作业 与性能 管理>E-HPC优化器。找到gromacs-test集群,在操作列,单击 节点。选择作业和节点并完成...

管理作业模板

在左侧导航栏,选择 作业 与性能 管理>作业。在 作业 页面,选择待创建作业模板的集群。单击页面左侧的 提交作业 页签。在 提交作业 区域,完成作业参数配置,单击 图标将当前作业参数配置保存为模板。作业模板名不能和已创建的作业模板名...

停止作业

当作业运行失败或不再需要...在左侧导航栏,选择 作业与性能管理>作业。在 作业 页面,在 集群 列表中选择作业所在集群。单击 作业列表 页签,在作业状态栏选择 未完成。单击要停止的作业操作列的 详情。单击作业信息面板右下角的 停止作业。

什么是混合云容灾服务

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

如何通过 mPaaS 框架解决 App 线上问题

如果真的在线上发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

响应云盒维修事件

当云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。本文为您介绍云盒维修相关的流程,以及如何响应云盒维修事件。背景信息 配置云盒计算资源时,您需要配置一定的...

高可用和容灾设计

可通过集群可读地址访问备节点,在发生故障切换时,RDS的高可用系统会自动执行以下三个步骤:将一个备节点提升为主节点,该备节点从集群可读地址中移除,同时清除该备节点上的可读连接,此时集群可读地址会发生闪断。故障主节点从集群读写...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

监控作业

在左侧导航栏,选择 作业与性能管理>作业。在 作业 页面,选择目标集群,单击 作业监控 页签。设置筛选条件。支持设置的筛选条件如下:时间段:过滤某一时间段内的作业数据。可快速选择查看距离当前时间前1小时、4小时、12小时或1天的数据...

自动伸缩最佳实践

在左侧导航栏,选择 作业与性能管理>作业。在 集群 列表中,选择AutoScaling集群,单击 创建作业。在 创建作业 页面,选择 编辑作业文件>新建文件>使用文件模板>pbs demo。在编辑作业文件页面,配置lj.in文件和AutoScaling.pbs,单击 确认 ...

查看集群报表

在左侧导航栏,选择 作业与性能管理>报表。在顶部下拉列表中,选择目标集群。查看报表。查看集群节点数量。节点数量展示集群中节点数量的变化折线图,支持显示各队列节点数量变化。查看某一时间段的集群资源使用量。资源使用量包含用户使用...

查看集群性能

在左侧导航栏,选择 作业 与性能 管理>E-HPC优化器。在 性能大盘 页面,找到目标集群,查看集群的基本信息和节点热力图。如上图所示,热力图中每个方格表示一个节点,鼠标移动到对应的节点即可显示该节点的名称和对应的性能。说明 节点热力...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

异地应用双活切流

在⼀个数据中心发生故障或灾难的情况下,将流量切换到其他数据中心,其他数据中心可以正常运行并对关键业务或全部业务进行接管,实现故障灾难场景的业务快速恢复。本文将介绍在异地应用双活中如何创建切流任务并查看切流详情。前提条件 ...

流水单据型业务场景多活实践

在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复。说明 这里区别于传统的解决思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦。容灾切换...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

测试SCC集群性能

rdma_monitor-s 返回示例如下:查看SCC集群节点的性能 在 弹性高性能计算控制台 的左侧导航栏,选择 作业 与性能 管理>E-HPC优化器。在 性能大盘 页面,选择目标集群,在操作列单击 节点。在 节点性能 页签,选择对应的节点、时间段和指标...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

通过控制台提交作业

在左侧导航栏,选择 作业性能与性能管理>作业。在 作业 页面,选择待提交作业的集群。单击 提交作业 页签。在 提交作业 区域,完成作业参数配置。配置项 描述 作业提交模板 您也可以选择已配置的作业模板快速提交作业。更多信息,请参见 ...

使用GROMACS进行分子动力学模拟

在左侧导航栏,选择 作业与性能管理>E-HPC优化器。找到目标集群,单击 节点。在 节点性能 页签下,查看节点性能。选择作业和计算节点。(可选)设置时间段。选择作业后,时间段会自动调整为作业运行的时间段,您也可以自行调整时间段。单击...

自治服务概述

云数据库 OceanBase 的自治服务是一款面向开发、运维、DBA 的一站式智能诊断自治服务,为用户提供可视化监控、性能优化、故障诊断、安全管理、容量管理等能力,帮助用户更简单、更低成本、更高性能的使用 OceanBase 数据库。背景信息 传统...

应用场景

一站式运维事件管理 应用场景 满足各类监控场景下报警统一事件化管理需求,支持集成对接各监控系统,支持服务器自定义推送异常事件,对报警、事件、故障进行全流程一站式管理,提升企业运维效率。能够解决 多源监控集成:支持多个常见监控...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 云数据库 Redis 版 云安全中心 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用