演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes...Container演练场景 Kubernetes集群中Pod资源下的容器故障场景,目前包含删除容器以及容器内故障场景。每个容器故障场景下都包含通用的容器筛选参数,用于查找目标容器。

OSS存储卷FAQ

问题原因 容器使用ossfs挂载OSS,即基于FUSE方式挂载OSS的Bucket,只有在文件执行close或者flush时,文件内容才会上传至OSS的服务端。解决方案 使用lsof+文件名称的方式,查看当前文件是否被其他进程占用,关闭相应进程,释放文件fd。关于...

为什么选择安全沙箱?

当节点上某一应用异常和故障,如内存泄露、频繁CoreDump等等导致节点整体负载升高,单容器触发Host Kernel Bug导致系统宕机,单应用的故障延展到了整个节点,甚至进一步导致整个集群的不响应。安全沙箱(runV)容器通过独立的GuestOS ...

常见问题旧版索引

排查故障的经典步骤与常见原因 如何通过查看日志排查故障?产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-CSI 存储FAQ-Flexvolume 容器安全FAQ 为什么可观测监控 ...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

DNS解析异常问题排查

集群外部域名解析异常 新增Headless类型域名无法解析 StatefulSets Pod域名无法解析 安全组、交换机ACL配置错误 容器网络连通性异常 CoreDNS Pod负载高 CoreDNS Pod负载不均 CoreDNS Pod运行状态异常 客户端负载原因导致解析失败 ...

DNS解析异常问题排查

集群外部域名解析异常 新增Headless类型域名无法解析 StatefulSets Pod域名无法解析 安全组、交换机ACL配置错误 容器网络连通性异常 CoreDNS Pod负载高 CoreDNS Pod负载不均 CoreDNS Pod运行状态异常 客户端负载原因导致解析失败 ...

Pod异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常...

Pod异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常...

管理容器组(Pod)

故障诊断 在容器组列表页面,您可以单击目标容器组右侧的 操作 列的 诊断,对该容器组进行故障诊断。更多信息,请参见 使用集群诊断。设置容器的CPU和内存资源上下限 应用创建完成后,您可以根据业务需求调整容器的CPU和内存资源上下限,...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

托管节点池概述

自愈:托管节点池会监控节点的运行状态,如果节点超过10分钟未上报节点状态,或者状态为NotReady,容器服务会尝试通过重启故障节点来恢复潜在的故障。因此,节点上的Pod会被重启。托管节点池与普通节点池的区别 ACK提供普通节点池和托管...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

使用ACK AI助手进行故障排查和智能问答

容器服务ACK AI助手(后文简称“ACK AI助手”)是阿里云容器服务团队提供的基于大模型的新型助手功能。基于阿里云容器服务团队在Kubernetes和云原生领域沉淀的知识经验、阿里云容器服务运维体系的观测以及ACK技术专家诊断的经验,ACK AI...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

网络概述

阿里云 容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)集成Kubernetes网络、阿里云VPC、阿里云SLB,提供稳定高性能的容器网络。本文介绍ACK集群网络及阿里云网络底层基础设施的重要概念,如容器网络CNI、Service、...

通过容器存储卷可观测性定位客户端IO问题

Pod IO Monitoring(Pod Level):容器组IO监控(容器组维度)的大盘,以Pod为过滤选项,存储卷重要指标的统计。OSS IO Monitoring(Cluster Level):对象存储IO监控(集群维度)的大盘,以OSS Bucket为过滤选项,存储重要指标的统计。存储...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

日志审计

容器服务 Kubernetes 版 对K8s多种组件日志和审计提供采集和分析能力,包括API Server、Ingress、管控平面组件和K8s关键Events事件等,以便在出现安全问题或集群问题时进行根因分析和溯源。使用集群审计功能 在Kubernetes集群中,API ...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

使用SysOM定位容器内存问题

为解决因容器引擎层的不透明性而导致的故障排查困难问题,阿里云 容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)团队推出操作系统内核层的容器监控可观测能力,为您提供更可靠、透明的容器引擎层,助力您更顺利地进行...

应用场景

弹性容器实例适用于容器形态下大部分业务场景,从弹性及成本角度,特别适用于在线业务的免运维托管、大数据计算任务(Spark、Presto)、事件驱动型业务和Job型业务,以及DevOps、机器学习、在线测试等各类场景。概述 弹性容器实例可以通过...

AIOps套件概述

Kubernetes是一个大规模分布式的容器编排引擎,由于其复杂性,管理与运维集群都需要较深的领域知识。为降低Kubernetes集群运维管理的难度,容器服务平台提供了AIOps套件。AIOps套件包括集群检查、集群巡检和集群诊断,可以帮助您排查问题,...

AIOps套件概述

Kubernetes是一个大规模分布式的容器编排引擎,由于其复杂性,管理与运维集群都需要较深的领域知识。为降低Kubernetes集群运维管理的难度,容器服务平台提供了AIOps套件。AIOps套件包括集群检查、集群巡检和集群诊断,可以帮助您排查问题,...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

内存诊断

容器智能运维平台 提供内存诊断功能,可以覆盖Kubernetes集群上常见的内存问题,包括内存泄漏、内存碎片化、OOM等。诊断结果以图表的方式展示系统内存整体使用情况,将容器内的缓存和共享内存归属到具体的文件夹下,清晰展示系统内存使用...

集群高可用架构推荐配置

如果由于库存不足等原因导致可用区之间资源不平衡,您可以再进行均衡操作来平衡资源的可用区分布。关于如何配置自动伸缩策略,请参见 节点自动伸缩。启用拓扑分布约束 基于节点的弹性伸缩、部署集、多AZ分布等手段,结合K8s调度中的拓扑...

使用须知及高危风险操作说明

阿里云容器服务Kubernetes版(简称容器服务ACK)提供容器服务相关的技术架构以及核心组件的托管服务,对于非托管组件以及运行在ACK集群中的应用,不当操作可能会导致业务故障。为了更好地预估和避免相关的操作风险,在使用容器服务ACK前,...

ACK发布Kubernetes 1.28版本说明

阿里云 容器服务 Kubernetes 版 严格遵循社区一致性认证。本文介绍ACK发布Kubernetes 1.28版本的主要变更说明,包括升级注意事项、重大变更、功能特性、弃用功能和API、特性门控等。组件版本说明 下表为ACK集群核心组件版本的支持情况。...

容器网络FAQ

ACK容器网络数据链路 ACK容器网络数据链路(Flannel)ACK容器网络数据链路(Terway ENI)ACK容器网络数据链路(Terway ENIIP)ACK容器网络数据链路(Terway IPVLAN+eBPF)ACK容器网络数据链路(Terway ENI-Trunking)其他 如何解决Pod启动...

安装探针概述

接入容器服务K8s版 架构感知和故障演练支持对容器服务K8s版安装探针,安装成功后即可自动侦测包含的ECS主机、容器组、容器、进程和云服务等组件。接入主机 任何Linux主机都可以通过公网地域接入AHAS控制台。后续操作 接入成功后,您可以...

Pod安全

这样做主要有两个原因:首先,容器内运行的进程默认在[Linux]root 用户的上下文中运行。尽管 root 在容器中的操作部分受到Docker分配给容器的 Linux capabilities 的限制,但这些默认权限可能允许攻击者提权或者访问到宿主机的敏感信息,...

NAS存储卷FAQ

问题原因:您的容器没有权限使用该NAS存储卷。解决方法:您需要使用root权限启动容器。挂载NAS存储卷失败 问题现象:挂载NAS PV失败,并报以下错误:Unable to mount volumes for pod"dp-earnings-pod_default(906172c6-3d68-11e8-86e0-...

搭建类似妙鸭相机的应用

本文以部署ModelScope社区的人物AIGC基础模型(ly261666/cv_portrait_model)搭建类似妙鸭相机的...说明 如果出现 Error 报错,可查看容器日志确认报错原因。如果是OOM,建议调小照片的宽度和高度,或者重新使用更大显存的GPU规格来部署应用。

DNS FAQ

问题原因 CoreDNS所使用的容器镜像是基于Scratch构建,不具备Shell执行环境。解决方案 可以使用 nsenter 的方式访问CoreDNS Pod所处的容器网络环境。具体操作,请参见 检查CoreDNS Pod的网络连通性。如果您需要查看CoreDNS日志,可以启用...

历史功能发布记录(2021年)

容器服务提供一键故障诊断能力,包括节点诊断、Pod诊断、网络诊断,可以辅助您定位集群中出现的问题。全部 使用集群检查 使用集群诊断 ACK Serverless Ingress ALB controller ALB Ingress基于阿里云应用型负载均衡ALB(Application Load ...

在离线混部概述

可以看出,即使容器在最近1s内整体的CPU使用率较低,受CPU Throttled机制的影响,Thread 2仍需要等待下一个周期才能继续将Req 2处理完成,进而导致请求的响应时延(RT)变大,这通常是造成容器RT长尾现象严重的原因之一。CPU Burst机制可以...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
容器镜像服务 弹性容器实例 容器服务 Kubernetes 版 ACK 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用