产品架构

高可用管理平台 HAS 在蚂蚁 SOFA 中间件以及 Café 应用发布平台的基础上,为用户应用及蚂蚁应用提供日常巡检、风险管理、应急预案故障演练等技术风险管理能力,满足用户应用巡检、故障处置、应急管理、故障演练等多种应用运维场景。...

产品优势

自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间。故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、...

什么是高可用管理平台

高可用管理平台(High Availability Service,HAS...事中:通过故障诊断、应急预案、容灾切换实现风险事件快速定位和恢复。事后:通过风险定级、回溯,实现风险事件的闭环管理。有效提升 IT 技术风险防御水平,保证业务健康、持续、稳定运行。

预案管理

通过 预案管理 模块,您可以新建一个应急预案,直接执行或将其与风险事件进行关联执行。您还可以对所有的预案进行统一管理,包括查看、编辑、删除预案。应急预案 新建应急预案 登录 SOFAStack 控制台。在左侧导航栏选择 运维管理>高可用...

预案执行

查看应急预案执行单 登录高可用管理控制台。在左侧导航栏上,单击 应急预案>预案执行。选择 应急预案 页签。应急预案总览页面展示了当前环境的预案执行单总量、各种状态的(未执行、执行中、执行成功、执行失败、参数待确认)执行单数量...

支持计划

4.7大客户专属服务(顶级)故障应急:针对云上故障提供快速响应、组织应急及实时止血技术方案同步能力。关键时刻保障:针对重要业务上线、业务变更等关键场景提供应急保障服务。业务监控设计:在重要活动及日常保障过程中协助客户设计云上...

应用场景

同时不断更新优化日常巡检、故障诊断、应急预案等内容的建设,不断丰富和完善应用技术风险防控体系,简化日常应用运维操作。故障演练 为不断提升产品高可用能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在...

功能特性

应急预案 应急预案 提供了应用运维原子操作的编排能力,如应用重启、应用摘流、数据库切换、物理服务器重启等操作。运维人员可以根据常见故障场景的处理过程,选择需要的原子能力进行编排组合,形成可执行的应急预案。当风险事件发生时,...

风险场景

应急预案描述 必填 自定义的应急预案描述。关联应急预案 选填 手动选择应急预案。如需新增应急预案,请参见 创建应急预案。关联诊断决策树 选填 手动选择诊断决策树。如需新增诊断决策树,请参见 新建诊断决策树。添加触发项 选填 可选 ...

预案原子操作

预案原子操作指最小单元的应急或容灾操作,您可以将其应用到应急预案或容灾预案中。系统原子操作 登录高可用管理控制台。在左侧导航栏上,单击 应急预案>预案原子操作。在 系统原子操作 页签,单击目标容灾预案原子操作名称或 操作 列下的 ...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...

故障协同处理(基于钉钉)

5.故障应急场景群:事件升级故障后自动创建故障应急场景群,在原有群聊和生成的故障场景群都支持操作故障,且故障关联数据和消息卡片实时同步推送。故障场景群包含以下三部分功能:(1)消息卡片自动推送:场景群创建成功后,群机器人自动...

故障管理

服务组和故障应急群 服务组是一组人员,可以跟一个或者多个故障场景绑定,当故障触发时,会自动外呼对应的服务组值班成员以及加服务组成员到故障应急群。同时服务组也支持排班。简而言之服务组就是在故障平台的一组值班人员。故障应急群是...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

按量计费

(0-50]M/min 1.5元/小时(50-100]M/min 3元/小时(100-150]M/min 4.5元/小时 以此类推/流转规则(故障应急)流转规则触发类型为启动故障应急时的费用,按此类型流转规则条数收费。3.5元/条/日/变更管理 自定义审批配置费用,按审批流条数收费...

故障基础数据管理

在设计相应的管理方案时,需要考虑以下内容:服务组:提供服务的人员群体,服务包括故障处理,工单处理等 值班表:可以对服务组成员进行排班,让故障应急工作更有计划性、不易遗漏 升级组:服务组的一种,通过服务组和升级组,可表达组与组...

移除故障应急协同组

移除故障应急协同组。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST...

新增故障应急协同组

新增故障应急协同组。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST...

如何管理事件

主要处理人:故障应急处理的小组应急 主要处理人,默认为 事件默认分配人;应急协同组:故障应急 处理的小组(可多选)。手动新增事件 点击首页左侧的新增事件按钮;点击新增事件按钮后出现新增事件弹窗;在新增事件弹窗输入事件名称,选择...

故障发现

故障应急争分夺秒,Oncall时效难以保障。7*24监控值班的主要考核指标有:通告及时率、通告准确率、快恢执行率。智能基线告警 智能基线告警是一套集成了统计学方法与机器学习算法,自动学习指标数据的历史规律,进而检测曲线异常突变的智能...

产品优势

安全、稳定 提供7×24小时的运行维护,并以在线工单和电话报障等方式提供技术支持,具备完善的故障监控、自动告警、快速定位等一系列故障应急响应机制。基于阿里云的AccessKeyId和AccessKeySecret安全加密对,从访问接口上进行权限控制和...

什么是故障

核心功能 故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,确保故障关键进展及时通知至相关人员,加快信息流转;故障收敛:支持按时间/次数进行告警收敛,将告警收敛到一个故障中统一处理;故障追踪:支持对故障的最新...

重保应急原则

应急预案 应急预案计划在落地前需与商务、法务等团队确认重保范围和职责,再与安全GOC以及合规团队确认落地方案。方案具有一定的统一性,但均会根据重保场景定制个案方案。以下为您介绍常见的对政务云平台的被攻击风险,以及通用的应急预案...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器...轻量应用服务器故障问题,请参见 故障排除。

故障隔离

最大隔 离数量 设置服务器的隔离数量,即多台服务器故障时最多隔离几台。取值≥0。流量精确匹配(可选)符合流量精确匹配的流量才进行隔离。可配置多条匹配规则,各匹配规则之间是与的关系。参数配置如下:字段:选择 系统字段。字段名:...

运维事件中心的审计事件

事件名称 事件含义 AddProblemServiceGroup 新增故障应急协同组。BillingStatistics 计费展示。CancelProblem 故障取消。CheckWebhook 校验Webhook。ConfirmIntegrationConfig 确认集成配置。Create 登录产品售卖页面进行的购买操作。...

云盒故障服务器维修流程

本文介绍当云盒内的服务器出现故障时,阿里云如何进行更换和维修,保证数据安全。背景信息 当云盒内的服务器出现故障,需要更换和维修时,出于客户成本考虑,云盒内没有部署数据擦除服务,阿里云不在客户现场进行数据擦除。重要 在您购买...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

功能发布记录

9.新增故障协同处理、故障应急场景群创建和使用。10.新增事件协同处理-相似事件模块。11.事件和故障的消息卡片支持@关联人员。12.PC端移动应用开通模块支持展示钉应用(维蜜)的开通状态。13.PC端主RAM和子RAM账号权限保持一致,都支持新增...

故障复盘

故障过程分析:可从需求评估、代码发布、故障应急等环节进行分析 后续改进:后续改进措施,明确改进方和责任人 故障等级/责任:参考上述故障等级定义,定义本次故障等级,并明确责任团队和责任人。故障数据运营 基于基础故障数据,通过不同...

设计方案

基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制...

ECS灾备解决方案

为了保障企业业务稳定、IT系统功能正常以及数据安全,灾备解决方案变得越来越重要,并且正在迅速...即使其中一台ECS服务器故障或资源利用超负荷,服务仍然可以持续对外提供,从而保障业务的连续性和可用性。更多信息,请参见 部署高可用架构。

网络资源

DNS服务异常可能由多种原因引起,如DNS服务器故障、网络连接问题、配置错误等。DNS服务异常可能会造成域名解析失败,导致无法外部服务调用等,或导致服务不可用。常使用的容错策略如下:DNS缓存:在客户端或本地网络环境中设置DNS缓存,将...

功能发布记录

故障演练支持自定义监控 故障演练支持自定义监控。演练场景、演练方案、演练执行单展示优化 演练场景、演练方案、演练执行单展示优化,区分我的和全部。场景实例、系统原子操作展示优化 场景实例、系统原子操作展示关联演练执行单列表。...

故障止损恢复

建议在故障应急协同群中推荐输出常见的快速恢复能力,并提供PC、手机端的一键快速执行能力,减少研发在各自平台上查找快恢入口的时间,也解决研发在外无电脑应急的尴尬局面。快恢能力主要包含人工梳理快恢预案、通用垂直专项快恢能力:人工...

部署高可用及共享存储Web服务

sudo chmod+x/etc/systemd/system/sync_nas.sh sudo chmod+x/etc/systemd/system/sync_check_switch.sh 配置上述脚本的开机自动启动,确保服务器故障恢复后,NAS可用性检测及容灾切换服务可以正常执行。创建 sync-check-switch.service ...

安全响应

应急响应中:通过对相应事件的监控,实时发现安全事件,并第一时间启动应急预案,进行风险的快速阻断或延缓。应急响应后:企业应对安全事件进行复盘,并优化更新应急响应流程、预案、剧本等。应急响应的分类分级 云上的应急响应应该根据...

解析设置类常见问题总结

服务器故障时,如何通过智能DNS实现将用户请求流量切换到正常的服务器上?答:智能解析不支持摘除故障IP和自动切换的功能。如果您需要实现此效果,建议您参阅 什么是全局流量管理?产品操作手册。如何通过API来添加解析记录?答:云解析...

新功能发布记录

2023-06-30 响应云盒维修事件 新增地域 新增以下两个地域:华东2(上海)华北1(青岛)2023-06-21 关联地域 2023年5月 功能名称 功能概述 发布时间 相关文档 故障服务器维修方案 云盒内的服务器出现故障时,阿里云将按照流程拆除和更换故障...

CentOS系统时区错误的排查思路

概述 本文主要介绍CentOS系统时区错误的排查思路。详细信息 CentOS系统时区错误,显示为UTC时区,以下为...将正常服务器/usr/share/zoneinfo/Asia/Shanghai 文件拷贝到故障服务器后,执行 date 命令,确认时区恢复正常。适用于 云服务器ECS
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
轻量应用服务器 云服务器 ECS Web应用防火墙 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用