本文汇总了ACS Pod的相关事件并给出说明,其中包括通用自定义事件(Pod相关事件、资源事件、系统运维事件)以及GPU型和高性能网络GPU型相关的调度管控事件。
获取自定义事件
事件中心方式
- 登录容器计算服务控制台,在左侧导航栏选择集群列表。 
- 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 > 事件中心。 
- 单击事件列表页签,根据级别、命名空间、名称等条件筛选目标资源的事件。  
- 单击右上角查看事件中心历史数据,从日志服务SLS中查询事件。 - 该功能需安装alibaba-log-controller和kube-eventer组件,可通过组件管理安装。  - 以通用型和性能型的系统运维事件OOMKilled为例: - { "eventId": { "metadata": {}, "involvedObject": { "kind": "Pod", "namespace": "default", "name": "helloworld-go-**********-*****", "uid": "*****", "apiVersion": "v1" }, "reason": "OOMKilled", "message": "invoked", "source": { "component": "AcsService" }, "firstTimestamp": "2025-**-**T02:33:49Z", "lastTimestamp": "2025-**-**T02:33:49Z", "count": 1, "type": "Warning", "eventTime": null, "reportingComponent": "", "reportingInstance": "" }, "hostname": "", "level": "Warning", "pod_id": "*****", "pod_name": "helloworld-go-**********-*****", "clusterName": "*****", "clusterId": "*****7ec556cb4680a3a1e71201a*****" }
- eventId主要字段说明:- involvedObject:事件关联的资源对象。内容包括ACS实例的Kubernetes版本(apiVersion)、资源类型(kind)、资源名称(name)、资源所在命名空间(namespace)和资源ID(uid)。
- message:事件信息。例如- Out of memory。
- reason:事件原因。例如- OOMKilled。
- type:事件类型。- Normal或者- Warning。
 
 
工作负载方式
- 登录容器计算服务控制台,在左侧导航栏选择集群列表。 
- 以无状态工作负载为例,在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择。 
- 单击目标工作负载名称,然后单击事件页签,查看Pod事件列表。 - 以通用型和性能型的系统运维事件OOMKilled为例:  
 
通用自定义事件说明
适用于所有计算类型的ACS Pod。
ACS Pod相关事件
| 事件名称(reason) | 事件类型(type) | 事件信息(message) | 事件说明 | 
| BestEffortDegraded | Warning | BestEffort instance will be degraded because the specified instance is out of stock | 创建BestEffort型的ACS Pod,由于BestEffort算力没有满足要求的库存,自动转为默认型。 | 
| BestEffortToBeReleased | Warning | BestEffort Instance will be released | BestEffort型的ACS Pod即将过期,您需要在业务上进行兼容处理。 | 
| StockExhaust | Warning | The stock of the specified zones will be used up | 当前可用区的ACS算力资源库存即将耗尽。建议更换可用区。 | 
| NoStock | Warning | Create ACS Instance failed because the specified instance is out of stock | 当前可用区的ACS算力资源库存不足。您可以使用多可用区和多规格的方式创建ACS Pod来提高创建成功率。 | 
| StockClose | Warning | Create ACS Instance failed because current zone closed or limited without living instance | 创建ACS Pod失败,无法使用当前可用区。请更换可用区。 | 
| FailedScheduling | Warning | Unknown error occurred | 创建ACS Pod失败,发生未知错误。请提交工单。 | 
| FailedScheduling | Warning | Schedule ACS Instance failed | 调度ACS Pod失败。请重新尝试。 | 
| UnknownError | Warning | The ACS service is under heavy load while creating container, please wait and try again later | ACS服务负载过大,请稍后再尝试创建ACS Pod。 | 
| UnknownError | Warning | An unknown error occurred | 发生未知错误。请提交工单。 | 
| DiskCapacityQuotaFull | Warning | Your disk capacity quota is exceeded | 磁盘容量已达到配额限制。请至配额中心申请提升配额。 | 
| AttachDiskFailed | Warning | Attach disk %s failed | 磁盘挂载失败。 | 
| SystemFailureReboot | Warning | The Specified Instance is rebooting | ACS Pod正在重新启动。 | 
| StartingFailed | Warning | the Instance starting failed: %s | ACS Pod启动失败。 | 
| Throttling | Warning | The request was denied due to system flow control, please wait and try again later | 由于系统流量控制,请求被拒绝。请稍候再尝试操作。 | 
| EphemeralStorageSizeExceededJobLimit | Warning | Ephemeral storage size: %s exceeded the limitation of job instance:%s | 临时存储空间的大小超出了限制。 | 
| InplaceResizing | Normal | Starting to resize container resource for container: %s cpu request: %v -> %v, cpu limit %v -> %v, memory request: %v -> %v, memory limit %v -> %v, time: %v | 开始对某容器进行原地变配。 | 
| InplaceResizing | Warning | Failed to do the inplace update, err message: %v | 原地变配失败。 | 
| InplaceResizedFinished | Normal | Pod vertical scaling cpu resource finished, consume: %v | 原地变配任务完成。 | 
| InplaceResizedFinished | Normal | scale task cancelled because pod resource already updated %v | 原地变配任务取消,因为Pod资源已经满足要求。 | 
| InplaceResizedTimeoutFailed | Warning | Pod vertical scaling cpu resource failed, reason: timeout, time: %v | 原地变配任务超时。 | 
其他资源事件
| 资源模块 | 事件名称(reason) | 事件类型(type) | 事件信息(message) | 事件说明 | 
| vSwitch | ResourceInsufficient | Warning | The maximum number of IP address in the VSwitch %s is exceeded | 交换机下可用的IP地址数量不足。请使用其他交换机。 | 
| SecurityGroup | QuotaFull | Warning | The maximum number of instances in the security group %s is exceeded | 安全组内的实例数量已达到配额限制。请使用其他安全组。 | 
| ENI | CreateENIFailed | Warning | %s | 创建ENI失败。 | 
| AttachENIFailed | Warning | %s | 挂载ENI失败。 | |
| AttachENIConflict | Warning | %s | 挂载ENI冲突。 | |
| MissDefaultVpc | Warning | %s | 缺少默认的VPC参数。 | |
| EIP | CreateEipFailed | Warning | %s | 创建EIP失败。 | 
| EipBandwidthPackageQuotaExceeded | Warning | %s | EIP带宽包超出配额限制。 | |
| EipNotFound | Warning | The specified eip %s does not exist | 指定的EIP不存在。 | |
| EipBoundOtherInstance | Warning | The specified eip %s is already bound to another instance | 指定的EIP已绑定了其他实例。 | |
| SLS | AliyunSlsQuotaExceed | Warning | %s | SLS资源超出配额限制。请提交工单申请提升配额。 | 
| AliyunSlsError | Warning | %s | SLS相关错误。 | |
| AliyunSlsProjectInvalid | Warning | %s | 指定的SLS Project是无效的。 | |
| AliyunSlsConfigFormatError | Warning | sls config %s value %s is invalid | SLS的配置参数无效。 | 
系统运维事件
| 事件名称(reason) | 事件信息(message)示例 | 事件说明 | 
| SandboxNotReady | Critical error detected on Host OS | 主动运维重启。 | 
| SandboxNotReadyUnExpected | Unexpected error occurred on underlying infrastructure | 非预期宕机重启。 | 
| SandboxRebootCanceled | The reboot of current instance has been canceled | 重启被取消。 | 
| SandboxRebootSucceeded | Current instance has been rebooted successfully. | 重启成功。 | 
| ScheduledMaintenance | {"originReason":"Redeploy","originMessage":"Redeploy","planExecTime":"20**-03-12T09:00:00.000+08:00"} | 计划运维事件。 重要  message为JSON格式,其中 | 
| OOMKilled | Memory cgroup out of memory: Kill process 15848 (xsim_traffic_fl) score 337 or sacrifice child | ACS Pod内部出现OOM。 | 
| PodOOMKilled | System OOM encountered, victim process: xxx, pid: xxx | ACS Pod内部出现OOM(非内核crash)。OOM对象包括ACS系统组件和容器进程。 | 
| DiskFull | There has insufficient disk space for current instance. | 磁盘空间已满。 | 
| NfsError | NFS: state manager: bind conn to session failed on NFSv4 server 172.16.0.1 with error 121 | NFS出现错误。 | 
| RuntimeCrashed | Unexpected crash occurred on underlying infrastructure | 容器运行时异常崩溃。 | 
| RuntimeIssueDetected | Unexpected issue occurred on underlying infrastructure | 检测到底层基础设施未预期的异常事件。 | 
GPU型和高性能网络GPU型自定义事件说明
包括计算类型为GPU型和高性能网络GPU型的ACS Pod的特殊自定义事件。
调度管控相关事件
| 事件名称(reason) | 事件类型(type) | 事件信息(message)或者示例 | 事件说明 | 
| Scheduled | Normal | Successfully assigned [namespace]/[Pod name] | Pod成功调度并绑定到目标节点。 | 
| GPUComputeClassScheduling | Normal | Waiting for ACS resource for scheduling | GPU类型Pod正在等待ACS资源分配,可能因GPU配额或资源不足导致延迟。 | 
| FailedScheduling | Warning | The Pod scheduling failed, [%s] | Pod调度失败,需检查资源配额、存储卷配置或节点亲和性规则是否冲突。 | 
| PVCUnbound | Warning | The Pod scheduling failed, persistentvolumeclaim "[PVC name]" is being deleted/not found | Pod调度失败,因PVC(持久化卷声明)被删除或未找到,需检查PVC状态。 | 
| InsufficientResources | Warning | The Pod scheduling failed, [CPU/Memory/GPU] resources are insufficient on all nodes | 所有节点资源不足(如CPU、内存或GPU),需扩容或调整资源请求。 | 
| AffinityConflict | Warning | The Pod scheduling failed, [X] Node(s) didn't match pod affinity/anti-affinity rules | 无可用节点满足亲和性/反亲和性规则,需检查Pod的Affinity配置。 | 
| TopologySpreadConstraint | Warning | The Pod scheduling failed, GPU resources are unavailable or insufficient | GPU资源不可用或不足,需检查GPU配额。 | 
| GPUSharePreempted | Warning | GPU is preempted by <new-pod-name> | 表示当前Pod的GPU资源被抢占,触发抢占的Pod名称是<new-pod-name>。具体请参见GPU共享Pod被抢占时,有哪些提示信息可以查看。 | 
| GPUSharePreempt | Warning | GPU is preempted from <old-pod-name> | 表示当前Pod抢占了其他Pod的GPU资源,被抢占的Pod名称是<old-pod-name>。具体请参见GPU共享Pod被抢占时,有哪些提示信息可以查看。 | 
| CPFSAttachFailed | Warning | CPFS filesystem ID is invalid or does not exist | CPFS文件系统ID不存在或不合法。 | 
| CPFSAttachFailed | Warning | Waiting for CPFS mountpoints to become ready | CPFS VSC挂载超时。 | 
| InvalidPovPV | Warning | Missing filesystem ID in PV configuration | PV缺少CPFS文件系统ID配置。 | 
| DiskAttached | Normal | Attached disk d-xxxxxxxxx | 块存储挂载成功。 | 
| DiskAttached | Warning | error attach disk d-xxxxxxxxx: server returned error: The specified disk does not exist. (InvalidDiskId.NotFound) | 块存储挂载失败,显示具体失败原因。 | 
| ResourceDiskAttachFailed | Warning | Failed to attach resource disk | 资源盘(镜像缓存等)挂载失败。如持续发生请提交工单。 | 
| PullImageFailed | Warning | Failed to pull image [image1] for [error message] | 镜像拉取失败,显示具体的镜像名称和失败原因。 | 
| FailedCreate (PVC) | Warning | failed to create pvc: [pvc-name] | PVC创建失败,显示失败的PVC名称。 | 
| FailedCreate (Pod) | Warning | failed to create pod: [pod-name] | Pod创建失败,显示失败的Pod名称。 | 
| NodeBroken | Warning | The pod is proposed to be evicted at 20xx-xx-xx xx:xx:xx +0000 UTC, reason: xxx | GPU-HPN整机故障。建议您在收到故障信息后,将故障节点的Pod尽快驱逐,ACS将在所有Pod驱逐完成后,自动开始节点修复自愈。 | 
| GPUCardBroken | Warning | The pod is proposed to be evicted at 20xx-xx-xx xx:xx:xx +0000 UTC, reason: xxx | GPU卡损坏。建议您在收到故障信息后,将故障节点的Pod尽快驱逐,ACS将在所有Pod驱逐完成后,自动开始节点修复自愈。 | 
| BestEffortToBeReleased | Warning | Best Effort Instance will be released | BestEffort实例即将过期,您需要在业务上进行兼容处理。 |