什么故障

本文主要介绍什么故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

什么是应用高可用服务AHAS

应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活容灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务MSE。多活容灾 多活容灾MSHA(Multi-...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

故障协同处理(基于钉钉)

本文主要介绍什么故障协同处理。云钉运维故障协同效果 功能概述 移动应用端(目前仅支持“钉钉”,以下功能说明均基于钉钉场景)支持接收故障消息提示和进行故障操作,且支持移动端操作管理故障,操作记录实时同步到 运维事件中心 控制台...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

PTS压测快速入门

阿里云提供的业务高可用架构体系,为企业提供营销活动、成本控制(压测、容量规划、流量控制)、应急(开关)、容灾逃逸(架构感知、故障演练、异地多活)的解决方案。其中PTS压测作为容量规划阶段重要的环节,可模拟海量用户的真实业务...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

流水单据型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务下单链路案例,介绍典型的流水单据型业务场景,如何基于多活容灾...相关文档 什么故障演练 为什么需要多活容灾?

读多写少型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活容灾...相关文档 什么故障演练 为什么需要多活容灾?

数据库代理常见问题

数据库代理是什么架构,有故障切换机制吗?数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点重搭恢复任务,以确保数据库服务的...

数据库代理常见问题

数据库代理是什么架构?有故障切换机制吗?代理个数和代理规格是什么关系?代理个数和代理地址个数有关系吗?数据库代理的性能会随着代理地址的增多而提升吗?数据库代理对用户的连接数有限制吗?使用数据库代理地址连接时报超时错误怎么办...

什么是Deepytorch Training(训练加速)

导入Deepytorch Training库的示例代码:import deepytorch as dpt 封装训练模型的示例代码:dpt.compile 特性说明 Deepytorch Training在AI训练的通信和计算方面具有显著的加速效果,具体说明如下:通信侧优化特性 单机优化 单机内的优化...

网站耗资源(客户程序故障)常见问题

网站耗资源(客户程序故障)与大流量的区别是什么?大流量会导致网络带宽被严重占用,而网站耗资源(客户程序故障)则导致服务器无法正常运行。两者的具体区别如下所示:网站耗资源(客户程序故障):运行不合理的网站程序,造成服务器负载...

EasyCkpt:AI大模型高性能状态保存恢复

功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的功能特点:特点1:任务的故障是部分的。通常,故障的根因是一到两台机器的故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有...

通信消息相关问题

自定义Topic通信数据的标准JSON格式是什么?物模型通信报错“5092-property not found”属性设置的设备响应,报错6335 真实的设备接入需要与产品中的设备保持同一个Topic吗?物联网平台如何将同一个消息发送到多个设备上?通信Topic订阅 ...

什么是Topic

物模型Topic:物模型是对设备实际功能的抽象,从 属性、服务 和 事件 三个维度,分别描述了该实体是什么、能做什么、能提供什么信息。例如智能风扇的开关状态是属性,开关的操作是服务,报警是事件。物模型的概念和使用,请参见 什么是物...

消息通信说明

MQTT云网关设备可通过自定义的消息Topic与物联网平台进行通信,物联网平台会透传设备的上下行通信数据。本文介绍设备实现上下行通信的相关说明。MQTT云网关产品和设备的详细内容,请参见 创建云网关产品(MQTT)和 创建云网关设备(MQTT)...

什么是AI通信加速库Deepnccl

Deepnccl是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍Deepnccl的架构、优化原理和性能说明。产品简介 Deepnccl基于NCCL(NVIDIA Collective ...

CLB访问日志功能简介

CLB结合阿里云日志服务提供的访问日志功能,可帮助您大幅提升日志数据分析、故障定位处理的效率。什么是CLB访问日志 CLB的访问日志功能收集了所有发送到CLB的请求的详细信息,包括请求时间、客户端IP地址、延迟、请求路径和服务器响应等。...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

“global param value can not blank”

问题原因 报错的意思是:“全局参数值不能为空”,用户的数据集为自定义SQL创建,该仪表板设置全局参数时选择的字段为自定义SQL中产生的SQL参数,用户的跳转字段也为SQL参数对应的字段,当SQL参数未在仪表版页面传参时,则该字段的值为空,...

什么是NAT网关

NAT 网关(NAT Gateway)是一种网络地址转换服务,提供NAT代理(SNAT和DNAT)能力。阿里云NAT网关分为公网NAT网关和VPC NAT网关,公网NAT网关提供公网地址转换...相关产品 什么是专有网络 什么是弹性公网 IP 什么是共享带宽 什么是云企业网

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。什么是强弱依赖?异常发生时,不影响核心业务流程,不...

演练场景说明

网络故障是系统运行过程中时常遇到的问题,所以需要提升系统在网络异常情况下的容错能力。Java 场景名称 特性 虚拟机场景 故障演练支持的虚拟机场景。代码逻辑场景 故障演练支持的代码逻辑场景。JVM注入动态脚本 向指定的Java方法注入一段...

设计方案

基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制...

DDH常见问题

什么udp通信时报文丢了?什么是专有宿主机DDH?阿里云专有宿主机(Dedicated Host,简称为DDH)是一台物理资源独享的云主机,物理服务器上的资源由一个租户独享,与其他租户在物理机级别上隔离。您能在DDH上创建ECS实例。更多信息,请...

故障演练

所以可以对故障模型再做一次升级,并得到一些推论:故障是来自于硬件(如IaaS层),软件(如PaaS或SaaS)的故障。并且有个规律,硬件故障的现象,会在软件故障现象上有所体现。故障隶属于单机或是分布式系统之一,分布式故障包含单机故障。...

如何通过 mPaaS 框架解决 App 线上问题

发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。这种方式也是推拉结合,及时触达用户。发布小程序更新如果故障发生在小程序中,只需要重新修改小程序,重新发布。和 H5 离...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

常见问题旧版索引

入门FAQ 方案规划 容器服务ACK中使用容器运行应用的大致流程是什么?容器服务ACK与阿里云其他产品一起使用的推荐方案是什么?如何选择容器服务ACK的集群类型?如何规划集群容量?ECS服务器怎么选型?如何选择阿里云容器镜像服务ACR个人版和...

专线连接类

边界路由器的阿里云侧IP和客户侧IP是什么意思?如何测试线路是否接好?本地数据中心如何访问VPC内的OSS内网域名?物理专线施工后,本地数据中心无法访问云上ECS,如何解决?本地数据中心到阿里云的线路中断,如何解决?带宽不符合预期,...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

概述

通过分布式链路跟踪,运维人员、开发人员和架构师能看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

本地盘最佳实践

什么是本地盘 本地盘是ECS实例所在物理机上的本地硬盘设备,能够为ECS实例提供本地存储访问能力,具有低时延、高随机IOPS、高吞吐量和高性价比的优势。对存储I/O性能有极高的要求,并且已经具备应用层高可用架构的业务,更适合选择本地盘...

DescribeFailoverTestJob-查询高速通道故障演练任务...

调用DescribeFailoverTestJob接口查询高速通道故障演练任务详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。...

DescribeFailoverTestJob-查询高速通道故障演练任务...

调用DescribeFailoverTestJob接口查询高速通道故障演练任务详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。...

CreateFailoverTestJob-创建高速通道故障演练任务

调用CreateFailoverTestJob接口创建高速通道故障演练任务。接口说明 以下场景不支持创建故障演练任务:当前地域您已经有正在演练的故障演练任务,且本次创建故障演练任务的任务类型为立即开始。物理专线实例或者共享物理专线实例没有支付...

CreateFailoverTestJob-创建高速通道故障演练任务

调用CreateFailoverTestJob接口创建高速通道故障演练任务。接口说明 以下场景不支持创建故障演练任务:当前地域您已经有正在演练的故障演练任务,且本次创建故障演练任务的任务类型为立即开始。物理专线实例或者共享物理专线实例没有支付...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网无线连接服务 负载均衡 短信服务 边缘网络加速 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用