功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

实时计算任务提交说明

完成实时计算任务开发并提交时,Dataphin系统将自动解析任务中表和字段的血缘关系及确认任务对象的变更类型、变更内容以及对您提交的计算任务进行前置检查,以确保您提交的任务符合提交条件,降低错误任务提交的可能性。血缘关系解析说明 ...

实时计算任务提交说明

完成实时计算任务开发并提交时,Dataphin系统将自动解析任务中表和字段的血缘关系及确认任务对象的变更类型、变更内容以及对您提交的计算任务进行前置检查,以确保您提交的任务符合提交条件,降低错误任务提交的可能性。血缘关系解析说明 ...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

单实例快速恢复

此时若Worker 2 发生故障,实例会检测故障后10秒内使用其他的Worker(Worker 1)加载Shard 2的元数据,以起到快速恢复的作用。当节点重启被拉起后,系统不会自动将Shard的元数据加载到重新拉起的节点上,即Shard 2元数据还是会加载在...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

演练概述

执行演练 将故障注入机器,可通过演练时需曲线、演练参数、演练日志等检查故障注入的效果是否符合预期。停止演练 清除故障。当故障演练自动结束、您主动终止或者演练中的任何环节出现异常后,系统都会进入恢复阶段,自动清除相应的故障,使...

离线计算任务提交说明

完成离线计算任务开发并提交时,Dataphin系统将自动解析任务中表和字段的血缘关系及确认任务对象的变更类型、变更内容以及对您提交的计算任务进行前置检查,以确保您提交的任务符合提交条件,降低错误任务提交的可能性。血缘关系解析说明 ...

离线计算任务提交说明

完成离线计算任务开发并提交时,Dataphin系统将自动解析任务中表和字段的血缘关系及确认任务对象的变更类型、变更内容以及对您提交的计算任务进行前置检查,以确保您提交的任务符合提交条件,降低错误任务提交的可能性。血缘关系解析说明 ...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

常见问题

工具常见问题 ossbrowser常见问题 ossutil常见问题 ossimport常见问题 ossfs常见问题 ossftp常见问题 SDK常见问题 Java Java SDK常见问题 使用OSS Java SDK时报“Connection to XXXX refused”错误 使用OSS Java SDK实现超时以及重传的代码...

设计方案

故障自愈:故障自愈是指系统自动检测故障并采取自动恢复措施。故障自愈技术可以帮助故障恢复和处理更加快速和准确。例如,利用容器技术,系统可以自动迁移容器来解决故障故障复盘:故障复盘是指对故障进行分析和总结,以便更好地避免...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

应用故障自动诊断

常见故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

故障演练

常见故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

集成任务提交说明

完成集成任务开发并提交时,Dataphin系统将自动解析任务中表和字段的血缘关系及确认任务对象的变更类型、变更内容以及对您提交的计算任务进行前置检查,以确保您提交的任务符合提交条件,降低错误任务提交的可能性。血缘关系解析说明 系统...

OSS的源Bucket配置数据复制规则后目标Bucket中无相应...

如果要复制的对象较大,请稍等片刻,再检查对象副本是否出现在目标Bucket中。您可以在源Bucket管理页面,选择 数据管理>跨区域复制,查看同步进度。源Bucket配置问题 数据复制状态是否为已开启(Enabled)。前缀(Prefix)是否正确。同步...

停止演练

停止演练后,系统会进入恢复阶段,自动清除相应的故障,使故障演练对象恢复演练前的状态。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 自动停止 在创建演练过程中需设置自动恢复时间和保护...

故障隔离

故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...

服务管控和治理

故障注入 您可以通过故障注入功能向测试应用注入故障检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。更多信息,请参见 故障注入。服务鉴权 服务提供者提供服务后,您可以通过...

“同名对象存在性检查”产生警告

本文介绍在配置DTS同步或迁移任务过程中,预检查 阶段检测出目标库中存在与源库同名的结构对象时的处理方法。问题描述 在配置同步或迁移实例的 预检查 阶段,同名对象存在性检查 出现警告,检查项的详情页面如下图所示:可能原因 DTS任务的...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

以太网接口无法接通

如果测试仪检测出线缆故障,请更换线缆。设备间双绞线长度是否满足要求。设备间线缆长度需小于100米。说明 10/100/1000 Mbps电接口采用RJ45连接器,接口线缆为5类或5类以上双绞线,此类双绞线最大传输距离为100米。如果线缆长度大于100米...

OSS SDK使用中常见问题的解决方法

Allow-Origin'”的错误 对象存储OSS使用Java实现签名Header上传的示例 OSS Java SDK的常见错误 Python 对象存储OSS使用Python语言实现签名Header上传的示例 使用Python操作OSS时出现“No module named oss2”报错 OSS Python SDK常见错误 ...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

监控服务概览

OSS监控服务为您提供系统基本运行状态、性能以及计量...故障排除 提供常见的问题场景和故障排除方法。注意事项 OSS Bucket全局唯一,如果删除Bucket之后再创建同名的Bucket,那么被删除的Bucket的监控以及报警规则会应用在新的同名Bucket上。

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

OSS对象检查节点

DataWorks支持通过OSS对象检查节点检查OSS指定路径的文件是否存在,当下游任务需依赖该OSS文件时,您可使用此功能先检查文件是否存在。例如,同步OSS数据至DataWorks,需先检测出已经产生OSS数据文件,才可执行OSS同步任务。本文为您介绍...

网站耗资源(客户程序故障常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

常见问题

运维管理 容器应用服务常见问题 经典应用服务常见问题 中间件 SOFABoot 常见问题 微服务常见问题 微服务故障排查之 DRM 微服务故障排查之限流 微服务故障排查之 RPC 服务网格-故障排查 消息队列常见问题 任务调度常见问题 分布式链路跟踪...

“目标库对象数据存在性检查”产生警告

本文介绍在配置DTS同步或迁移任务过程中,预检查 阶段检测出目标库对象不为空时的处理方法。问题描述 在配置同步或迁移实例的 预检查 阶段,目标库对象数据存在性检查 出现警告,检查项的详情页面如下图所示:可能原因 DTS任务的目标端中的...

如何配置流转规则

选择 触发故障 需要配置故障影响服务、故障等级覆盖。配置完成之后点击 提交即可。仅触发报警:确定 报警触发规则:设置触发的持续时长和次数对报警进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发报警,只要将时长和次数分别设置...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

基础设施安全

算力健康检测 进行AI训练时,DLC提供算力健康检测能力,对分布式训练任务的算力资源健康度与性能进行检查。在创建DLC训练任务时可以开启该功能,健康检测会对参与训练的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,...

常见问题-FAQ

重要 标准版最快可在4分钟左右准确发现故障并切换 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL...

FAQs

重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
对象存储 数据库自治服务 云安全中心 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用