代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...

实时分析链路数据

单机故障每时每刻都在频繁发生,特别是核心集群由于节点数量比较,从统计概率来看几乎是一种“必然”事件。单机故障不会造成服务大面积不可用,但是会造成少量的用户请求失败或超时,持续影响用户体验和答疑成本,需要及时处理。单机故障...

源为PolarDB-X的任务配置方案

配置 PolarDB分布式版 下个RDS MySQL至目标库的DTS任务,如其中一个DTS任务发生故障,则不影响其他DTS任务的运行,且只需恢复发生故障的DTS任务即可。稳定性一般。仅配置一个以 PolarDB分布式版 为源的DTS任务,如该DTS任务发生故障,则...

源为PolarDB-X的任务配置方案

配置 PolarDB分布式版 下个RDS MySQL至目标库的DTS任务,如其中一个DTS任务发生故障,则不影响其他DTS任务的运行,且只需恢复发生故障的DTS任务即可。稳定性一般。仅配置一个以 PolarDB分布式版 为源的DTS任务,如该DTS任务发生故障,则...

CreateFailoverTestJob-创建高速通道故障演练任务

接口说明 以下场景不支持创建故障演练任务:当前地域您已经有正在演练的故障演练任务,且本次创建故障演练任务任务类型为立即开始。物理专线实例或者共享物理专线实例没有支付完成或者处于欠费状态。物理专线实例或者共享物理专线实例...

CreateFailoverTestJob-创建高速通道故障演练任务

接口说明 以下场景不支持创建故障演练任务:当前地域您已经有正在演练的故障演练任务,且本次创建故障演练任务任务类型为立即开始。物理专线实例或者共享物理专线实例没有支付完成或者处于欠费状态。物理专线实例或者共享物理专线实例...

UpdateFailoverTestJob-更新高速通道故障演练任务

调用UpdateFailoverTestJob接口更新高速通道故障演练任务。接口说明 只支持更新处于 待演练状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...

UpdateFailoverTestJob-更新高速通道故障演练任务

调用UpdateFailoverTestJob接口更新高速通道故障演练任务。接口说明 只支持更新处于 待演练状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

链路状态

发生故障时,及时进行切换。操作步骤 登录 智能接入网关控制台。在 智能接入网关 页面,单击目标实例ID。在智能接入网关实例详情页面,单击 高可用配置,可查看链路状态。绿灯:表示链路正常。红灯:表示链路故障。icmsDocProps={'...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

概述

分布式系统将计算任务和数据分布在个节点上以实现更高的性能、可靠性和可扩展性,当一个节点发生故障或错误时,其他节点可以继续工作,相比于单机系统,架构本身就有较高的节点容错性。但随着服务拆分,更组件的引入,分布式系统的复杂...

如何在SchedulerX 2.0平台上托管ElasticJob任务

高可用 SchedulerX 2.0采用高可用架构,任务多备份机制,经历阿里集团多年双十一、容灾演练,可以做到整个集群任意2个节点发生故障或者任意一个机房断电,任务调度都不会受到影响。与开源ElasticJob的区别 对比项 开源ElasticJob ...

单实例快速恢复

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。节点恢复速度在一分钟左右,当表数量明显增加时,恢复时间会更长。Hologres...

同城容灾架构概述

非机房级故障(某个机房的单产品故障,例如其中一个机房的ECS服务器损坏),可以通过对单产品的灾备设计来保障发生故障时系统及时切换。应用设计相关参考标准 应用设计相关参考标准如下:无状态化。分布式集群设计、避免单点逻辑出现。幂等...

如何在SchedulerX 2.0平台上托管ElasticJob任务

高可用 SchedulerX 2.0采用高可用架构,任务多备份机制,经历阿里集团多年双十一、容灾演练,可以做到整个集群任意2个节点发生故障或者任意一个机房断电,任务调度都不会受到影响。与开源ElasticJob的区别 对比项 开源ElasticJob ...

设置宕机自动迁移

若您未开启宕机自动迁移,DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。警告 本地SSD型DDH(例如本地SSD型i2)不支持自行手动迁移和故障时自动迁移。如果本地SSD型DDH出现故障,您可以 提交工单 申请人工迁移,但迁移后本地...

如何通过 mPaaS 框架解决 App 线上问题

如果真的在线上发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...

如何在SchedulerX 2.0平台上托管ElasticJob任务

高可用 SchedulerX 2.0采用高可用架构,任务多备份机制,经历阿里集团多年双十一、容灾演练,可以做到整个集群任意2个节点发生故障或者任意一个机房断电,任务调度都不会受到影响。与开源ElasticJob的区别 对比项 开源ElasticJob ...

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

消息通知

任务自动容错:当DLC任务发生异常或错误并进行自动容错处理时,会发送消息通知。事件范围 支持以下取值:我创建的:仅您自己创建的DLC任务。当前工作空间所有的:当前工作空间下的所有的DLC任务。事件目标 钉钉通知 您需要配置 Webhook 和 ...

管理运行任务

失败:运行任务发生错误。作业列表 运行任务按照应用定义,解析生成的不同计算作业,每个作业属于一个分析步骤,并提供具体的执行信息。输入 用户提交运行任务时,使用的所有输入参数。输出 由应用定义的,运行任务成功完成后,产生的分析...

EasyCkpt:AI大模型高性能状态保存恢复

因此,在发生故障时,迫切需要一种以低成本的方法来保存最新的Checkpoint。这样在重新启动训练时就无需重复计算,从而减少时间和成本的浪费。功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的...

任务导入

当需要一次创建较多任务的时候,可以使用「导入任务」功能。当项目内有多个任务类型的时候,导入任务还可以在选择对应任务类型之后,按所选不同任务类型导入。一、选择任务类型,下载导入模板 点击任务面板右上角的三个点,在打开的菜单中...

产品相关问题

可视化任务编排:简化多任务调度的运维管理,并支持暂停/恢复、跳过、加锁/解锁、重置、失败重试等多种人工预操作。任务监控:支持实时查看任务的执行状态及执行进度,执行时长,执行的客户端 IP、执行是否成功、执行失败原因等信息。更多...

云拨测升级说明

支持多任务对比即时拨测。优化即时拨测分析界面。任务分析 预置Grafana任务概览大盘。支持自定义条件、自定义维度分析。支持多任务、多地域、多条件对比分析。支持任务明细分析。支持P50、P95、P99耗时分析。自动记录错误响应头和响应内容...

云盘异步复制概述

启动云盘异步复制功能 通过异步复制功能实现容灾恢复 您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行容灾恢复。通过异步复制功能实现容灾恢复 删除云盘异步复制关系 创建...

AIMaster:弹性自动容错引擎

配置容错消息通知 任务开启容错监控后,如果您希望容错发生时可以进行通知,比如任务发生了重启,那么您可以在 工作空间详情,选择 事件中心,点击 新建事件规则,事件类型选择 DLC任务>任务自动容错。具体操作,请参见 工作空间事件中心。...

Android 发布管理

发布管理是客户端升级新版本的配置后台,支持用户创建多任务、多维度的升级配置。关于此任务 Android 发布管理的功能包括以下方面:增加升级资源并提示二维码的下载地址。创建、修改新版本资源包的任务。对已添加的发布包创建多种类型的...

故障演练

例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过将被演练的资源关闭,使资源处于人工构造的故障...

容灾管理服务介绍

针对有高可用需求的用户,CADT容灾管理服务提供规划、优化、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行容灾演练,验证系统是否能够抵御资源故障或者AZ故障,保障系统健壮性。主要功能 容灾规划 在用户部署资源前,通过...

计算资源

即使其中一个节点发生故障或异常中断,其他节点仍然可以继续执行剩余的子任务,提高任务的容错性和可靠性。任务重复执行 由于各种原因导致计算任务次执行的情况,如重复操作、消息重复、调度重复等原因。常见的容错策略如下:去重:...

任务实例状态异常

说明 更多任务未运行的排查与处理请参见 任务未运行。父节点状态 实例状态:紫色(冻结)说明该实例被冻结了,任务将不会运行,并且阻塞下游,可以在实例详情,操作记录中查看相关记录。实例状态:黄色(等待)等待任务定时时间,点开右下...

手动任务快速入门

本文以SHELL任务类型为...常见问题 报错“The bucket you access does not belong to you”问题 相关文档 更多任务类型的详细信息,请参见 任务类型。手动任务相关的操作,请参见 管理手动任务。如需新购调度资源组,请参见 管理调度资源组。

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 负载均衡 性能测试 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用