功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

高性能版实例

以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障和计算节点宿...

产品高可用

为了防止集群中某台机器故障导致的会话中断,您可以在业务逻辑中加入重试机制,降低对用户访问造成的影响。单CLB实例的高可用 为了向广大用户提供更稳定可靠的负载均衡服务,阿里云负载均衡已在大部分地域部署了多可用区以实现同地域下的跨...

故障演练常见问题

例如:对 10 台 ECS 注入 CPU 满载和磁盘填充两种故障,则故障注入次数为 10(ECS)×2(故障场景)=20次,那么故障规则下发次数即为 20 次。挂载 JavaAgent 是否计费?仅针对故障规则下发次数进行计费,挂载 JavaAgent 为故障注入的...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

DDH常见问题

本文介绍DDH相关的常见问题及解决方案。DDH相关的常见问题及解决方案如下:什么是专有宿主机DDH?DDH有什么优势?在什么场景下需要购买DDH?DDH是裸机产品吗?DDH与弹性裸金属服务器有什么区别?怎么创建和释放DDH?怎么查看每台DDH上有...

常见问题

表格存储 可以自动根据您的业务量的增长进行扩容,还可自动进行故障检测和数据迁移,对您的应用程序屏蔽机器和网络的硬件故障,为您完成一切运维任务。使用 表格存储 您只需专注于业务研发,无需担心软硬件预置、配置、故障、集群扩展、...

探针安装常见问题

常见问题 本文介绍了以下常见问题:AHAS架构感知和故障演练探针limits配置 ECS探针安装常见问题 容器服务安装ack-ahas-pilot常见问题1 容器服务安装ack-ahas-pilot常见问题2 容器服务安装ack-ahas-pilot常见问题3 容器服务安装ack-ahas-...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

数据库优化

数据库自治服务 DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,有效保障数据库服务的稳定、安全及...

常见网络问题

本文介绍 云备份 备份客户端的常见网络问题。背景信息 在非阿里云VPC的各类线下环境中安装备份客户端时,可能遇到各种未知且复杂的网络环境。例如防火墙会阻拦域名或端口的连接导致备份失败,防火墙会限制网络传输速度导致部分请求超时,...

查看监控信息

说明 数据库自治服务DAS是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助您消除人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。详情请参见 数据库自治服务DAS简介。自定义...

外呼机器人常见问题解决方式

外呼机器常见问题处理方式。1、无法新建场景,提示新建场景失败,请重试 解决方式:当出现此情况时,多为当前账号下默认可创建场景数量达到上限,可前往配额中心进行提升场景配额数量。链接为:...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

设置开关推送

每批的机器数为总机器数/批次数。按机器顺序推送,同一批次内推送机器并行,多批次间按顺序推送。例如有10台机器,灰度批次 设为3,则先推送前3台机器,再推送3台机器,最后再推送4台机器。是否多次暂停:仅第一批暂停,表示推送完第一批...

机器人管理

机器学习常见问题 机器学习功能的逻辑是什么?机器学习的挖掘规则是,在不同会话中,如果一个类似的问题被问次数>=3 次,则该问题会被机器人挖掘显示在机器学习页面。机器学习里的数据什么时候更新?机器学习里的数据需要 T+1 天后更新。为...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

安装探针概述

为您的主机等资源安装应用高可用探针后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...

创建演练

指定IP选择:选中机器列表中的机器即可,精确指定机器执行故障注入。百分比选择:当演练对象为应用时,可使用 百分比选择 方式。滑动指针,设置1~100的百分比数值,每次执行演练时,系统会随机从所选应用分组下的存活机器中,按百分比选取...

评论管理

评论管理页面提供了用户评论相关统计数据,包括总评论机器过滤数和运营删除数,同时展示当前应用发布的所有内容的用户评论列表。支持用户评论查询、机器过滤、运营点赞以及运营删除/回收评论。总评论数:当前应用发布的所有内容所收到...

安装故障演练探针

对指定机器进行演练时,需要在机器上面安装故障演练探针,探针的作用是下发故障演练执行命令。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>停止演练 操作步骤 登录 AHAS控制台。在左侧导航栏选择 探针管理,...

主机组Runner升级

第4步 失败处理 如果升级失败,请点击查看 升级失败详情,弹窗展示成功升级机器数,失败升级机器数,列表展示失败机器详情和失败原因。请根据失败原因处理后再重试升级(可参考 云效统一 Runner 常见问题),若确认某台机器不再使用或可以...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

ADP底座介绍

常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...

私有构建集群Runner升级指南

第4步 失败处理 如果升级失败,请点击查看 升级失败详情,弹窗展示成功升级机器数,失败升级机器数,列表展示失败机器详情和失败原因。请根据失败原因处理后再重试升级(可参考 云效统一 Runner 常见问题),若确认某台机器不再使用或可以...

GTM如何实现异地容灾

常见问题 故障切换时间是多少?在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云...

故障演练

常见故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

代码逻辑场景

受影响的请求 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求占所有应该发生故障...

演练概述

完整的故障演练包括以下四个阶段:安装故障演练探针 对指定机器进行演练,需要在机器上面安装故障演练探针,探针的作用是下发故障演练执行命令。创建演练 配置演练基本信息、演练对象和演练全局参数。可同时选择多个故障类型。执行演练 将...

GTM如何实现同城容灾

常见问题 故障切换时间是多少?在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

JVM注入动态脚本

受影响的请求 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求占所有应该发生故障...

服务支持

本文汇总了智能对话机器人的常见问题和服务等级协议。智能对话机器人(通义版)阿里云产品服务协议(智能对话机器人)智能对话机器人服务协议 智能对话机器人(基础版)常见问题 阿里云产品服务协议(智能对话机器人)

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

EasyCkpt:AI大模型高性能状态保存恢复

通常,故障的根因是一到两台机器故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有的Worker都出现故障。特点2:机器故障是部分的。通过对众多故障失败案例的分析,对于训练集群而言:GPU易损坏,但机器的CPU和内存...

产品架构

图中实线表示现有的连接,图中虚线表示当机器1出现故障或进行维护时,这部分流量会走到一台可以正常运行的机器2上。因而负载均衡集群支持热升级,并且在机器故障和集群维护时最大程度对用户透明,不影响用户业务。说明 对于连接未建立(三...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 机器翻译 人工智能平台 PAI 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用