故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

Serverless常见问题

Serverless集群常见问题 基础概念 Serverless 集群的 PCU 是什么意思?PCU 是 PolarDB Capacity Unit 的缩写。1 PCU 约等于 1核 2GB 内存的标准服务能力。PCU 是 PolarDB Serverless 集群进行资源弹性的管理单位,单次弹性的最小 PCU 单位...

设置集群白名单

创建数据库账号 连接数据库集群 常见问题 已添加ECS的IP地址到IP白名单中,但是还是无法访问。答:确认IP白名单是否正确。如果是通过内网地址访问,需添加ECS的私网IP地址。如果是通过公网地址进行访问,需添加ECS的公网IP地址。确认网络...

查看集群概况

智能运维系统通过红黄绿3种颜色来展示集群的健康状况:红色:表示集群已经出现了很严重的问题或者很严重的隐患,已经影响了您的使用,需要立即处理,否则会存在数据丢失,集群故障等问题。黄色:表示集群存在较严重的问题或隐患,可能会...

Kubernetes集群扩容常见问题的排查及解决方法

概述 本文主要介绍扩容ECS实例到Kubernetes集群常见问题的排查及解决方法。详细信息 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS、RDS)等进行...

设置集群白名单

创建数据库账号 连接数据库集群 常见问题 Q:如何指定服务器只能访问集群中的某个节点?A:使用 自定义集群地址 访问集群,就只能访问集群中的特定节点。Q:IP白名单最多支持填写多少个IP地址?A:IP白名单最多可以填写1000个IP地址或地址...

基于MSE云原生网关实现同城多活

在同城多活的场景下,能够确保对跨可用区的多个业务集群的请求实现高效负载均衡分配,在单个可用区内的业务集群发生故障时,可在1秒内完成故障节点的自动摘除从而实现故障转移,有效的保障服务连续性和高可用性。容灾概述 目前云上容灾主要...

通过云原生网关管理多个ACK集群

例如,集群A部署在可用区A,集群B部署在可用区B,A与B两个集群部署的服务一致,当其中一个集群故障时可以快速切换流量。云原生网关为了支持业务的高可用部署诉求,提供了多ACK集群接入功能。即用一个云原生网关实例同时关联A、B两个集群,...

Serverless常见问题

Serverless集群常见问题 基础概念 Serverless集群的PCU是什么意思?PCU是PolarDB Capacity Unit的缩写。1 PCU约等于1核2 GB内存的标准服务能力。PCU是 PolarDB Serverless集群进行资源弹性的管理单位,单次弹性的最小PCU单位为0.5 PCU。...

如何通过阿里云注册集群和Prometheus实现多云容器集群...

告警配置管理 提供容器集群常见核心指标监控模板,同时提供告警模板功能可自行生成和下发告警模板,实现快速批量化配置告警。提供页面化告警配置引导和预览,可实时查看告警条件匹配事件,并进行精细化配置。统计告警数据,实时分析处理...

如何通过阿里云注册集群和Prometheus实现多云容器集群...

告警配置管理 提供容器集群常见核心指标监控模板,同时提供告警模板功能可自行生成和下发告警模板,实现快速批量化配置告警。提供页面化告警配置引导和预览,可实时查看告警条件匹配事件,并进行精细化配置。统计告警数据,实时分析处理...

安装云原生AI套件

云原生AI套件支持安装在ACK Pro版集群、ACK Serverless集群Pro版、ACK Edge集群Pro版,且集群版本为1.18及以上。本文介绍如何安装云原生AI套件,以及如何安装配置云原生AI运维控制台和开发控制台。前提条件 已创建ACK Pro版集群、ACK ...

常见问题旧版索引

使用Terway网络的ENI模式出现网络异常 Terway网络场景中交换机的IP资源不足 ACK集群中SLB实例的具体用途 集群管理 容器服务ACK集群故障排查 添加Kubernetes集群节点的常见问题 删除Kubernetes集群失败 通过CloudShell管理集群出现超时问题 ...

历史功能发布记录(2022年)

2022年05月 功能名称 功能描述 发布地域 相关文档 集群故障诊断时支持诊断ECS实例的健康状态 您在运行集群故障诊断时将同时运行ECS实例健康诊断,帮助您对ECS实例的系统状态、网络状态、磁盘状态等进行全方位诊断,及时发现并解决常见问题...

E-MapReduce创建失败

以下列举出常见集群创建失败的原因以及对应解决方案,帮助您在集群创建失败时可以通过FAQ来解决部分问题 一、问题:创建集群出现弹窗错误:Your account does not have enough balance 原因:余额需要大于100元,才能正常创建集群 二、问题...

创建集群

相关文档 创建集群相关的问题,详情请参见 集群管理常见问题。创建集群成功后需要新增部分未安装的服务,详情请参见 新增服务。关于如何登录集群,详情请参见 登录集群。关于如何选择实例类型,详情请参见 ECS实例说明。关于各组件使用相关...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

功能发布记录(2018~2022年)

优化 选择注册中心运维方式 支持为多语言应用配置故障注入 通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力。新增 已下线 支持为多语言应用配置服务超时 服务超时机制可以在请求的处理时间超过设置的时间时直接返回错误...

故障排查

ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的排查方法 容器服务ACK应用故障排查 如何升级集群?排查故障的...

通过CCR跨集群复制解决跨集群容灾场景

Elasticsearch(简称ES)集群出现灾难性事件,例如,硬件故障、软件错误、数据中心故障、自然灾害或其他导致服务中断的情况,可使用跨集群复制CCR(Cross Cluster Replication)实现跨地域或跨资源的容灾能力,本文分别介绍新老网络架构下...

集群巡检项及解决方案

本文介绍集群巡检的常见风险预警以及解决方案。集群巡检项 说明 关于如何使用集群巡检功能,请参见 使用集群巡检。根据集群配置,具体巡检项可能稍有不同。实际结果请以检查报告结果为准。检查类型 预警风险 资源配额 ResourceQuotas VPC...

运维命令概览

当您的阿里云Elasticsearch(简称ES)集群出现故障时,可通过本文提供的命令进行排查。说明 以下命令均可在Kibana控制台中执行,详情请参见 登录Kibana控制台。集群 命令 说明 GET/_cat/health?v 查看集群的健康状态。集群状态包括green、...

独享集群最佳实践

独享集群和公共集群对比 对比项 WAF公共集群 WAF独享集群 集群地区 公共集群在全球共部署14个防护节点,分布在以下地区:北京、上海、杭州、深圳、中国香港、新加坡、马来西亚、美西、澳洲、德国、印度、印尼、迪拜、日本。业务接入公共...

ModifyDBCluster-修改集群功能配置

修改PolarDB MySQL集群的功能配置。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 ...

缩容集群

当E-MapReduce集群的计算资源过剩时,您可以缩减Task节点的数量。前提条件 已在EMR on ECS创建集群,详情请参见 创建集群。...缩容集群相关的问题,详情请参见 集群管理常见问题。API方式,详情请参见 DecreaseNodes-缩容。

扩容集群

当E-MapReduce集群计算资源或存储资源不足时,您可以通过水平扩展Core节点、Task节点以及特定版本下的Gateway节点来满足需求。...扩容集群相关的问题,详情请参见 集群管理常见问题。API方式,详情请参见 IncreaseNodes-扩容。

管理从集群

全球数据库网络(Global Database Network,简称GDN)是由分布在同一个国家不同地域的多个 PolarDB 集群组成的网络,网络中所有集群的数据保持同步。当您的业务部署在多个地域时,利用GDN可以实现应用访问数据库的低延迟和高稳定性。本文...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

AIOps套件概述

Kubernetes是一个大规模分布式的容器编排引擎,由于其复杂性,管理与运维集群都需要较深的领域知识。...内存诊断 覆盖ACK集群常见的内存问题,例如内存泄漏、内存碎片化、cgroup泄漏等,并以图表的方式展示内存整体使用情况。

添加Kubernetes集群节点的常见问题

概述 本文主要介绍添加已有的ECS实例到Kubernetes集群常见问题。详细信息 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS、RDS)等进行配置与...

AIOps套件概述

Kubernetes是一个大规模分布式的容器编排引擎,由于其复杂性,管理与运维集群都需要较深的领域知识。...内存诊断 覆盖ACK集群常见的内存问题,例如内存泄漏、内存碎片化、cgroup泄漏等,并以图表的方式展示内存整体使用情况。

升级ACK灵骏集群

集群升级常见问题 如何处理集群升级失败并提示the aliyun service is not running on the instance?问题原因 云助手不可用,导致升级命令下发失败。解决方案 请启动或停止云助手后,重新执行集群升级操作。具体操作,请参见 启动、停止...

使用集群API Server审计功能

在Kubernetes集群中,API Server的审计日志可以帮助集群管理人员记录或追溯不同用户的日常操作,是集群安全运维中重要的环节。本文帮助您了解阿里云Kubernetes集群API Server审计日志的相关配置,如何通过日志服务收集、分析审计日志,并...

手动升级集群

集群升级常见问题 如何处理专有版集群Master节点升级超时?问题原因 Admission Webhook组件自签发的服务端证书未包含必要的SAN字段,导致Master组件启动失败。解决方案 通过以下命令查看Webhook使用的自签发证书是否具备SAN字段。下述命令...

降配集群

当您的业务存在高低峰期或其他变化,导致集群节点规格高于业务所需规格时,可通过阿里云Elasticsearch(简称ES)的集群降配功能,降低节点规格配置、变更节点磁盘类型等,以便更好地保障业务发展并控制成本。前提条件 确保集群为正常(绿色...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

故障排查

本文介绍您在使用 ACK Serverless集群 时可能遇到的故障以及解决方案。如果您在使用 ACK Serverless集群 时出现故障,可根据以下故障分类匹配故障场景和解决方案,帮助您快速排查问题,提升运维效率。分类 相关文档 集群资源和集群组件异常...

产品架构

因而负载均衡集群支持热升级,并且在机器故障集群维护时最大程度对用户透明,不影响用户业务。说明 对于连接未建立(三次握手未完成),或者已建立连接但未触发会话同步机制,热升级不保证连接不中断,需要依靠客户端重新发起连接。入网...

什么是容器报警演练

容器演练是针对Kubernetes集群定制的故障演练,可以对Kubernetes集群中至关重要的高可用特性进行验证。目前AHAS仅支持容器演练中的报警演练。本文主要介绍容器演练中的报警演练功能。报警演练功能概述 Kubernetes集群的自动报警功能是保障...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库专属集群 云数据库 Redis 版 负载均衡 云解析DNS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用