本文汇总了ACS Pod的相关事件并给出说明,其中包括通用自定义事件(Pod相关事件、资源事件、系统运维事件)以及GPU型和高性能网络GPU型相关的调度管控事件。
获取自定义事件
事件中心方式
登录容器计算服务控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 > 事件中心。
单击事件列表页签,根据级别、命名空间、名称等条件筛选目标资源的事件。
单击右上角查看事件中心历史数据,从日志服务SLS中查询事件。
该功能需安装alibaba-log-controller和kube-eventer组件,可通过组件管理安装。
以通用型和性能型的系统运维事件OOMKilled为例:
{ "eventId": { "metadata": {}, "involvedObject": { "kind": "Pod", "namespace": "default", "name": "helloworld-go-**********-*****", "uid": "*****", "apiVersion": "v1" }, "reason": "OOMKilled", "message": "invoked", "source": { "component": "AcsService" }, "firstTimestamp": "2025-**-**T02:33:49Z", "lastTimestamp": "2025-**-**T02:33:49Z", "count": 1, "type": "Warning", "eventTime": null, "reportingComponent": "", "reportingInstance": "" }, "hostname": "", "level": "Warning", "pod_id": "*****", "pod_name": "helloworld-go-**********-*****", "clusterName": "*****", "clusterId": "*****7ec556cb4680a3a1e71201a*****" }
eventId
主要字段说明:involvedObject
:事件关联的资源对象。内容包括ACS实例的Kubernetes版本(apiVersion)、资源类型(kind)、资源名称(name)、资源所在命名空间(namespace)和资源ID(uid)。message
:事件信息。例如Out of memory
。reason
:事件原因。例如OOMKilled
。type
:事件类型。Normal
或者Warning
。
工作负载方式
登录容器计算服务控制台,在左侧导航栏选择集群列表。
以无状态工作负载为例,在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择
。单击目标工作负载名称,然后单击事件页签,查看Pod事件列表。
以通用型和性能型的系统运维事件OOMKilled为例:
通用自定义事件说明
适用于所有计算类型的ACS Pod。
ACS Pod相关事件
事件名称(reason) | 事件类型(type) | 事件信息(message) | 事件说明 |
BestEffortDegraded | Warning | BestEffort instance will be degraded because the specified instance is out of stock | 创建BestEffort型的ACS Pod,由于BestEffort算力没有满足要求的库存,自动转为默认型。 |
BestEffortToBeReleased | Warning | BestEffort Instance will be released | BestEffort型的ACS Pod即将过期,您需要在业务上进行兼容处理。 |
StockExhaust | Warning | The stock of the specified zones will be used up | 当前可用区的ACS算力资源库存即将耗尽。建议更换可用区。 |
NoStock | Warning | Create ACS Instance failed because the specified instance is out of stock | 当前可用区的ACS算力资源库存不足。您可以使用多可用区和多规格的方式创建ACS Pod来提高创建成功率。 |
StockClose | Warning | Create ACS Instance failed because current zone closed or limited without living instance | 创建ACS Pod失败,无法使用当前可用区。请更换可用区。 |
FailedScheduling | Warning | Unknown error occurred | 创建ACS Pod失败,发生未知错误。请提交工单。 |
FailedScheduling | Warning | Schedule ACS Instance failed | 调度ACS Pod失败。请重新尝试。 |
UnknownError | Warning | The ACS service is under heavy load while creating container, please wait and try again later | ACS服务负载过大,请稍后再尝试创建ACS Pod。 |
UnknownError | Warning | An unknown error occurred | 发生未知错误。请提交工单。 |
DiskCapacityQuotaFull | Warning | Your disk capacity quota is exceeded | 磁盘容量已达到配额限制。请至配额中心申请提升配额。 |
AttachDiskFailed | Warning | Attach disk %s failed | 磁盘挂载失败。 |
SystemFailureReboot | Warning | The Specified Instance is rebooting | ACS Pod正在重新启动。 |
StartingFailed | Warning | the Instance starting failed: %s | ACS Pod启动失败。 |
Throttling | Warning | The request was denied due to system flow control, please wait and try again later | 由于系统流量控制,请求被拒绝。请稍候再尝试操作。 |
EphemeralStorageSizeExceededJobLimit | Warning | Ephemeral storage size: %s exceeded the limitation of job instance:%s | 临时存储空间的大小超出了限制。 |
InplaceResizing | Normal | Starting to resize container resource for container: %s cpu request: %v -> %v, cpu limit %v -> %v, memory request: %v -> %v, memory limit %v -> %v, time: %v | 开始对某容器进行原地变配。 |
InplaceResizing | Warning | Failed to do the inplace update, err message: %v | 原地变配失败。 |
InplaceResizedFinished | Normal | Pod vertical scaling cpu resource finished, consume: %v | 原地变配任务完成。 |
InplaceResizedFinished | Normal | scale task cancelled because pod resource already updated %v | 原地变配任务取消,因为Pod资源已经满足要求。 |
InplaceResizedTimeoutFailed | Warning | Pod vertical scaling cpu resource failed, reason: timeout, time: %v | 原地变配任务超时。 |
其他资源事件
资源模块 | 事件名称(reason) | 事件类型(type) | 事件信息(message) | 事件说明 |
vSwitch | ResourceInsufficient | Warning | The maximum number of IP address in the VSwitch %s is exceeded | 交换机下可用的IP地址数量不足。请使用其他交换机。 |
SecurityGroup | QuotaFull | Warning | The maximum number of instances in the security group %s is exceeded | 安全组内的实例数量已达到配额限制。请使用其他安全组。 |
ENI | CreateENIFailed | Warning | %s | 创建ENI失败。 |
AttachENIFailed | Warning | %s | 挂载ENI失败。 | |
AttachENIConflict | Warning | %s | 挂载ENI冲突。 | |
MissDefaultVpc | Warning | %s | 缺少默认的VPC参数。 | |
EIP | CreateEipFailed | Warning | %s | 创建EIP失败。 |
EipBandwidthPackageQuotaExceeded | Warning | %s | EIP带宽包超出配额限制。 | |
EipNotFound | Warning | The specified eip %s does not exist | 指定的EIP不存在。 | |
EipBoundOtherInstance | Warning | The specified eip %s is already bound to another instance | 指定的EIP已绑定了其他实例。 | |
SLS | AliyunSlsQuotaExceed | Warning | %s | SLS资源超出配额限制。请提交工单申请提升配额。 |
AliyunSlsError | Warning | %s | SLS相关错误。 | |
AliyunSlsProjectInvalid | Warning | %s | 指定的SLS Project是无效的。 | |
AliyunSlsConfigFormatError | Warning | sls config %s value %s is invalid | SLS的配置参数无效。 |
系统运维事件
事件名称(reason) | 事件信息(message)示例 | 事件说明 |
SandboxNotReady | Critical error detected on Host OS | 主动运维重启。 |
SandboxNotReadyUnExpected | Unexpected error occurred on underlying infrastructure | 非预期宕机重启。 |
SandboxRebootCanceled | The reboot of current instance has been canceled | 重启被取消。 |
SandboxRebootSucceeded | Current instance has been rebooted successfully. | 重启成功。 |
ScheduledMaintenance | {"originReason":"Redeploy","originMessage":"Redeploy","planExecTime":"20**-03-12T09:00:00.000+08:00"} | 计划运维事件。 重要 message为JSON格式,其中 |
OOMKilled | Memory cgroup out of memory: Kill process 15848 (xsim_traffic_fl) score 337 or sacrifice child | ACS Pod内部出现OOM。 |
PodOOMKilled | System OOM encountered, victim process: xxx, pid: xxx | ACS Pod内部出现OOM(非内核crash)。OOM对象包括ACS系统组件和容器进程。 |
DiskFull | There has insufficient disk space for current instance. | 磁盘空间已满。 |
NfsError | NFS: state manager: bind conn to session failed on NFSv4 server 172.16.0.1 with error 121 | NFS出现错误。 |
RuntimeCrashed | Unexpected crash occurred on underlying infrastructure | 容器运行时异常崩溃。 |
RuntimeIssueDetected | Unexpected issue occurred on underlying infrastructure | 检测到底层基础设施未预期的异常事件。 |
GPU型和高性能网络GPU型自定义事件说明
包括计算类型为GPU型和高性能网络GPU型的ACS Pod的特殊自定义事件。
调度管控相关事件
事件名称(reason) | 事件类型(type) | 事件信息(message)或者示例 | 事件说明 |
Scheduled | Normal | Successfully assigned [namespace]/[Pod name] | Pod成功调度并绑定到目标节点。 |
GPUComputeClassScheduling | Normal | Waiting for ACS resource for scheduling | GPU类型Pod正在等待ACS资源分配,可能因GPU配额或资源不足导致延迟。 |
FailedScheduling | Warning | The Pod scheduling failed, [%s] | Pod调度失败,需检查资源配额、存储卷配置或节点亲和性规则是否冲突。 |
PVCUnbound | Warning | The Pod scheduling failed, persistentvolumeclaim "[PVC name]" is being deleted/not found | Pod调度失败,因PVC(持久化卷声明)被删除或未找到,需检查PVC状态。 |
InsufficientResources | Warning | The Pod scheduling failed, [CPU/Memory/GPU] resources are insufficient on all nodes | 所有节点资源不足(如CPU、内存或GPU),需扩容或调整资源请求。 |
AffinityConflict | Warning | The Pod scheduling failed, [X] Node(s) didn't match pod affinity/anti-affinity rules | 无可用节点满足亲和性/反亲和性规则,需检查Pod的Affinity配置。 |
TopologySpreadConstraint | Warning | The Pod scheduling failed, GPU resources are unavailable or insufficient | GPU资源不可用或不足,需检查GPU配额。 |
GPUSharePreempted | Warning | GPU is preempted by <new-pod-name> | 表示当前Pod的GPU资源被抢占,触发抢占的Pod名称是<new-pod-name>。具体请参见GPU共享Pod被抢占时,有哪些提示信息可以查看。 |
GPUSharePreempt | Warning | GPU is preempted from <old-pod-name> | 表示当前Pod抢占了其他Pod的GPU资源,被抢占的Pod名称是<old-pod-name>。具体请参见GPU共享Pod被抢占时,有哪些提示信息可以查看。 |
CPFSAttachFailed | Warning | CPFS filesystem ID is invalid or does not exist | CPFS文件系统ID不存在或不合法。 |
CPFSAttachFailed | Warning | Waiting for CPFS mountpoints to become ready | CPFS VSC挂载超时。 |
InvalidPovPV | Warning | Missing filesystem ID in PV configuration | PV缺少CPFS文件系统ID配置。 |
DiskAttached | Normal | Attached disk d-xxxxxxxxx | 块存储挂载成功。 |
DiskAttached | Warning | error attach disk d-xxxxxxxxx: server returned error: The specified disk does not exist. (InvalidDiskId.NotFound) | 块存储挂载失败,显示具体失败原因。 |
ResourceDiskAttachFailed | Warning | Failed to attach resource disk | 资源盘(镜像缓存等)挂载失败。如持续发生请提交工单。 |
PullImageFailed | Warning | Failed to pull image [image1] for [error message] | 镜像拉取失败,显示具体的镜像名称和失败原因。 |
FailedCreate (PVC) | Warning | failed to create pvc: [pvc-name] | PVC创建失败,显示失败的PVC名称。 |
FailedCreate (Pod) | Warning | failed to create pod: [pod-name] | Pod创建失败,显示失败的Pod名称。 |
NodeBroken | Warning | The pod is proposed to be evicted at 20xx-xx-xx xx:xx:xx +0000 UTC, reason: xxx | GPU-HPN整机故障。建议您在收到故障信息后,将故障节点的Pod尽快驱逐,ACS将在所有Pod驱逐完成后,自动开始节点修复自愈。 |
GPUCardBroken | Warning | The pod is proposed to be evicted at 20xx-xx-xx xx:xx:xx +0000 UTC, reason: xxx | GPU卡损坏。建议您在收到故障信息后,将故障节点的Pod尽快驱逐,ACS将在所有Pod驱逐完成后,自动开始节点修复自愈。 |
BestEffortToBeReleased | Warning | Best Effort Instance will be released | BestEffort实例即将过期,您需要在业务上进行兼容处理。 |