ADP底座介绍

常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

查看事件与监控信息

故障列表 故障列表显示当前应用分组正在报警的全部资源,如果正在报警的规则被禁用,则故障列表中不再显示被禁用规则的故障信息。可用性监控 查看服务实例可用性的监控信息。组进程监控 查看组进行监控的进程ID、动态规则匹配和状态等信息...

替换主机

您可以在 计划内事件 中查看本次故障信息。影响 执行替换主机操作会有如下影响:系统会将主机设置为停止分配实例。迁移走本主机上所有实例。系统会保证把实例迁到可用的新主机上。操作步骤 登录 云数据库专属集群控制台。在页面左上角,...

替换主机

您可以在 计划内事件 中查看本次故障信息。影响 系统会将主机设置为停止分配实例。迁移走本主机上所有实例。系统会保证把实例迁到可用的新主机上。在主机替换时,可能会有1~2次闪断,为避免对业务的影响,建议选择 在实例维护时间段切换。...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...

如何管理故障

在完善整体故障信息过程中,若相应人员无法搜索,需在阿里云 访问控制(RAM)中添加对应子账号并将对应人员添加至运维事件中心 人员管理-人员列表 中;取消故障:当故障经过排查发现实际业务无影响,被判定为非故障时,可以取消该故障;在 ...

故障排查

背景信息 故障排查步骤如下:排查路由问题。排查第3/4层(网络/传输)问题。排查第2层(数据链路)问题。排查第1层(物理)问题。排查路由问题 本地接入设备能ping通云上边界路由器网关VBR的IP,并且已建立了BGP对等会话,如果您的本地...

ECS灾备解决方案

您可以通过系统事件获知故障信息并部署新的ECS节点来替换受影响的节点,以此维持服务的正常运行和业务的连续性。通过这种自动化和监控机制,确保了系统的高可用性和业务的稳定性。数据层 对象存储OSS:在地域级别部署对象存储OSS,不同可用...

API概览

我们已经为开发者封装了常见编程语言的SDK,开发者可通过 下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能满足使用需求,可通过签名机制进行自签名对接。由于自签名细节非常复杂,需花费 5个工作日左右。因此建议加入...

按步骤提交设备故障信息

本案例创建四个业务服务和一个Web应用,搭建一个设备故障上报的工单页面,引导使用Web应用的用户完成故障信息的提交。前提条件 已完成项目的创建(例如 project_space)。详细内容,请参见 项目。步骤一:使用云数据库创建数据库表 登录 云...

监控服务概览

OSS监控服务为您提供系统基本运行状态、性能以及计量...故障排除 提供常见的问题场景和故障排除方法。注意事项 OSS Bucket全局唯一,如果删除Bucket之后再创建同名的Bucket,那么被删除的Bucket的监控以及报警规则会应用在新的同名Bucket上。

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

ack-node-repairer

背景信息 节点自愈系统默认集成了常见的节点故障以及对应的节点修复操作。当节点出现故障时,自愈系统会自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD会修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要...

耗资源用户处理流程

为了保证您的站点能够安全、...关于网站耗资源的原因以及排查方法,更多信息,请参见 网站耗资源(客户程序故障常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见 云虚拟主机官网。

应用故障自动诊断

常见故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

故障演练

常见故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

API概览

GetProblem 查询故障详情 ListProblems 查询故障列表 ListProblemTimeLines 查询故障时间线列表 GenerateProblemPictureLink 获取故障图片链接 GenerateProblemPictureUploadSign 故障图片上传获取签名信息 ListProblemOperations 故障动态...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

步骤五:应用容灾

故障切换完成后,单击 故障切换/故障恢复信息 下的链接,检查数据和应用。如果检查后发现当前时间点应用运行正常,选择 更多>故障切换>确认故障切换。说明 在故障切换或者切换恢复点完成,并且已经确认被容灾保护的服务器恢复出的应用已经...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾...故障恢复完成后,您可以在单击 故障切换/故障恢复信息 下的链接,检查恢复后的ECS实例情况。更多参考 IDC容灾到云 阿里云上跨可用区容灾

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

跨地域容灾

故障切换完成后,单击 故障切换/故障恢复信息 下的链接,检查数据和应用。如果检查后发现当前时间点应用运行正常,选择 更多>故障切换>确认故障切换。说明 在故障切换或者切换恢复点完成,并且已经确认被容灾保护的服务器恢复出的应用已经...

常见问题

MaxCompute常见错误信息如何理解,怎么定位问题?使用MaxCompute需要具备什么专业技能?MaxCompute支持多种计算模型数据通道,满足多场景需求。所以您只需要会使用SQL、Python、Java等开发语言就可以使用MaxCompute进行数据分析。如何理解...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

如何排查Java场景下故障注入不生效的问题

为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...

应用场景

能够解决 故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息流转。故障跟踪:支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同,提升故障处理效率。故障复盘:基于最佳实践经验,沉淀了对...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用身份服务 (IDaaS) 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用