故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

如何管理故障

故障通告是故障协同的关键操作,在故障的处理过程中,需要有意识的进行故障更新通告,确保关心故障状态的相关人及时知晓故障处理进展;新增影响服务:故障处理过程,可以新增、变更故障所影响的服务,确保相关信息准确;新增时间线:时间线...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

流水单据型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务下单链路案例,介绍典型的流水单据型业务场景,如何基于多活容灾...相关文档 什么是故障演练 为什么需要多活容灾?

读多写少型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活容灾...相关文档 什么是故障演练 为什么需要多活容灾?

什么是应用高可用服务AHAS

应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活容灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务...更多信息,请参见 什么是故障演练。

故障演练常见问题

关于故障演练计费的常见问题 什么是故障规则下发次数?一次故障注入即为一次故障规则下发。例如:对 10 台 ECS 注入 CPU 满载和磁盘填充两种故障,则故障注入次数为 10(ECS数)×2(故障场景数)=20次,那么故障规则下发次数即为 20 次。...

PTS压测快速入门

更多信息,请参见 什么是故障演练。容灾阶段:在容灾防护阶段,您需要构建系统的容灾解决方案。阿里云提供了 多活容灾 平台助力您建设系统容灾稳定性。更多信息,请参见 为什么需要多活容灾?PTS压测流程 PTS是具备强大分布式压测能力的...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...

管理委派管理员账号

在 可信服务 页面,单击目标可信服务 操作 列的 管理。在 委派管理员账号 区域,单击 添加。在 添加委派管理员账号 面板,选中成员。单击 确定。添加成功后,使用该委派管理员账号访问对应可信服务的多账号管理模块,即可进行资源目录组织...

管理成员的常见问题

本文介绍了管理成员过程中可能会遇到的常见问题。成员基本操作 管理账号、成员、资源账号、云账号、根用户、RAM用户之间的区别是什么管理账号 管理账号(Management Account,简称MA)是一个经过 企业实名认证 的阿里云账号。您可以使用...

管理成员的常见问题

本文介绍了管理成员过程中可能会遇到的常见问题。成员基本操作 管理账号、成员、资源账号、云账号、根用户、RAM用户之间的区别是什么管理账号 管理账号(Management Account,简称MA)是一个经过 企业实名认证 的阿里云账号。您可以使用...

购买和启用KMS实例

KMS实例提供密钥和凭据相关功能,您可以使用密钥对敏感数据加解密,使用凭据减少在代码中硬编码凭据带来的风险,增强业务数据的安全性。...如何释放KMS实例 相关文档 密钥管理快速入门 凭据管理快速入门 什么是密钥管理服务

管理标签策略委派管理员账号

背景信息 委派管理员账号的基本概念,请参见 什么是委派管理员账号。使用限制 最多允许添加2个委派管理员账号。添加委派管理员账号 使用管理账号登录 资源管理控制台。在左侧导航栏,选择 资源目录>可信服务。在 可信服务 页面,单击 标签 ...

管理资源中心委派管理员账号

背景信息 委派管理员账号的基本概念,请参见 什么是委派管理员账号。使用限制 最多允许添加1个委派管理员账号。添加委派管理员账号 使用管理账号登录 资源管理控制台。在左侧导航栏,选择 资源目录>可信服务。在 可信服务 页面,单击 资源...

在批量执行命令中使用加密参数

通过 什么是系统运维管理 的参数仓库,可以更为方便的对参数进行集中管理。利用参数仓库的 加密参数,可以更安全的管理命令中的敏感信息。本文介绍如何在OOS批量执行命令时使用加密参数。前提条件 已开通密钥管理服务(KMS),请参见 什么...

新功能发布记录

2023-02-09 全部地域 什么是密钥管理服务 密钥服务概述 凭据管理概述 2022年11月 发布版本 功能概述 发布时间 发布地域 相关文档 2.4 专属KMS凭据管家支持托管RAM凭据、RDS凭据、ECS凭据 2022-11-30 华东1(杭州)、华东2(上海)、华北2...

新功能发布记录

什么是数据管理DMS 02月 功能名称 变更类型 功能描述 相关文档 数据库迁移 新增 通过产品化解决方案的封装,实现数据库迁移、校验和清理的闭环操作。同时支持库名称修改、迁移前预校验、迁移后数据一致性校验及来源数据库的清理,保证数据...

功能发布记录

本文介绍智能媒体管理每次发布涉及的功能变更及对应的文档,帮助您了解智能媒体管理的发布动态。功能名称 变更类型 功能描述 发布时间 相关文档 备注 语义检索功能发布 新增 语义检索能力对您对象存储 OSS 中的...2018-06 什么是智能媒体管理

基本概念

本主要介绍运维事件中心的基本概念。集成中心 名词概念 说明 监控源 监控源表示上游监控系统,包括阿里云监控系统、开源...更多请查看 什么是故障 服务中心 名词概念 说明 服务 服务是企业业务连续性管理的最小单元。更多请查看 什么是服务

产品优势

本文档描述产品的主要使用优势。主要优势 多监控系统集成:支持10+常见监控系统集成,简单配置即可快速完成对接;灵活的报警降噪能力:支持横向抑制、...阿里巴巴故障管理最佳实践输出:帮助云上企业构建故障管理体系,持续提升业务连续性。

产品正式商业化发布

故障管理闭环:事件影响恶化,将升级为故障,故障管理形成闭环,持续提升业务连续性。云钉一体的运维协同:基于钉钉打通多端、多团队的协同,加速运维事件处理。产品适用场景 一站式运维事件管理:满足各类监控场景下报警统一事件化管理...

运营阶段

通过前期的设计,到构建,服务进入日常运营环节。在这个阶段往往会产生大量的运营事件,比如日常的资源申请。企业在持续运营过程中也会产生或大或小的生产故障,需要做好线上故障管理,提升服务SLA。

应用场景

体系化故障闭环管理 应用场景 基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。能够解决 故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息...

简介

使用 系统运维管理 SDK之前,您需要:了解并开通阿里云 系统运维管理,详情请参见 什么是系统运维管理。创建AccessKey。系统运维管理 支持以下主流语言的SDK包。语言 参考文档 Python 简介 Java 简介 Go 简介 C#简介 相关链接 阿里云开发者...

数据库代理常见问题

数据库代理是什么架构,有故障切换机制吗?数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点重搭恢复任务,以确保数据库服务的...

利用定时开关机节省成本

什么是OOS 系统运维管理 OOS(CloudOps Orchestration Service),简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景...

应用场景

密钥服务概述 什么是加密服务 凭据管理 通过使用凭据管家,轻松满足对RAM AccessKey、RDS账号口令、ECS SSH密钥等凭据的安全管理要求,同时带来高效而可靠的数据泄露应急处理能力。凭据管理概述 数据保密性 通过KMS对个人隐私进行加密保护...

什么是人员

本文主要介绍什么是人员。定义 人员列表中的人员,必须来自RAM账号,包括主、子RAM账号,如需新增人员,需在RAM中新增子账号,并将子账号赋予 运维事件中心 权限后添加至人员列表中。RAM主账号可以管理自己和所有子账号的人员信息,RAM子...

如何通过 mPaaS 框架解决 App 线上问题

如果真的在线上发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...

产品简介

什么是运维事件中心 运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能;一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应...

阿里云应用配置管理免费试用服务条款

2.您理解并同意,使用 阿里云应用配置管理是您自行独立审慎判断的结果(包括但不限于本服务与您的操作系统、云服务器等软件、硬件等产品或服务的适配性),您将自行对此负责。在您使用阿里云 阿里云应用配置管理前,您应仔细阅读阿里云就该...

NVMe协议介绍

实际业务使用过程中单点故障是常态,确保故障情况下业务连续性是高可用系统的核心能力,在云上存储和网络具备极高的可用性。而计算节点则经常受断电、宕机、硬件故障等影响,所以业务通常搭建主备模式解决计算的高可用问题。例如数据库场景...

EasyCkpt:AI大模型高性能状态保存恢复

功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的功能特点:特点1:任务的故障是部分的。通常,故障的根因是一到两台机器的故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有...

DescribeFailoverTestJob-查询高速通道故障演练任务...

请求参数 名称 类型 必填 描述 示例值 RegionId string 故障演练任务所在的地域 ID。您可以通过调用 DescribeRegions 接口获取地域 ID。cn-hangzhou ClientToken string 是 客户端 Token,用于保证请求的幂等性。从您的客户端生成一个...

DescribeFailoverTestJob-查询高速通道故障演练任务...

请求参数 名称 类型 必填 描述 示例值 RegionId string 故障演练任务所在的地域 ID。您可以通过调用 DescribeRegions 接口获取地域 ID。cn-hangzhou ClientToken string 是 客户端 Token,用于保证请求的幂等性。从您的客户端生成一个...

CreateFailoverTestJob-创建高速通道故障演练任务

操作 访问级别 资源类型 条件关键字 关联操作 vpc:CreateFailoverTestJob Write 全部资源*无 无 请求参数 名称 类型 必填 描述 示例值 RegionId string 故障演练任务所在的地域 ID。您可以通过调用 DescribeRegions 接口获取地域 ID。...

CreateFailoverTestJob-创建高速通道故障演练任务

操作 访问级别 资源类型 条件关键字 关联操作 vpc:CreateFailoverTestJob Write 全部资源*无 无 请求参数 名称 类型 必填 描述 示例值 RegionId string 故障演练任务所在的地域 ID。您可以通过调用 DescribeRegions 接口获取地域 ID。...

安装USBKey控件

USBKey控件管理工具使用指导(管理员)USBKey控件管理工具是管理员用来管理USBKey,包括初始化USBKey,以及在USBKey锁死之后可通过管理工具解锁等。安装USBKey控件管理工具 单击下载 USBKey控件管理工具 并解压。选择 USBKey控件管理工具....

UpdateFailoverTestJob-更新高速通道故障演练任务

操作 访问级别 资源类型 条件关键字 关联操作 vpc:UpdateFailoverTestJob Write 全部资源*无 无 请求参数 名称 类型 必填 描述 示例值 RegionId string 故障演练任务所在的地域 ID。您可以通过调用 DescribeRegions 接口获取地域 ID。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 轻量应用服务器 负载均衡 云安全中心 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用