查看EAS云监控事件

EAS在云监控上定义了两种类型事件:服务事件(Service)和服务实例事件(ServiceInstance)。EAS事件控制器会实时推送EAS服务事件和服务实例事件到云监控。您可以通过云监控控制台或API接口查看事件,对事件进行运维、审计或报警设置。

查看EAS事件

通过控制台

您可以在云监控控制台查看EAS事件,具体操作步骤如下。

  1. 登录云监控控制台

  2. 在左侧导航栏,选择事件中心 > 系统事件

  3. 事件监控页签,产品选择机器学习,单击搜索,查看EAS系统事件。

    image

  4. 单击目标事件操作列下的详情,查看事件详情。示例如下:image

    参数说明如下。

    参数

    说明

    Product

    产品code。例如:机器学习为learn。

    Name

    事件名。关于机器学习支持查看的事件名,请参见支持查看的EAS事件中的事件名列。

    Level

    事件级别,可能值:

    • INFO:信息。

    • WARN:警告。

    • CRITICAL:严重。

    Status

    事件状态。关于机器学习的事件状态,请参见支持查看的EAS事件中的事件状态列。

    RegionId

    服务所在的地域ID。例如:华东2(上海)为cn-shanghai。

    ResourceId

    资源ID,详情请参见权限策略说明

    InstanceName

    服务名称或服务实例名称。

    Time

    事件发生时间,格式为UNIX毫秒时间戳。

    GroupId

    EAS对应的云监控应用分组,默认没有分组。

    Content

    表示事件的核心内容。

    • 服务级别事件:字符串。

    • 服务实例级别的事件:JSON格式,参见Content参数说明

    Content参数说明

    参数

    说明

    serviceName

    实例对应的服务名。

    serviceId

    实例对应的服务ID。

    serviceGroup

    实例对应的服务群组。

    resourceType

    实例所在的资源组类型,可能值:

    • PublicResource:公共资源组。

    • DedicatedResource:专属资源组。

    instanceType

    实例规格。

    cpu

    实例使用的CPU个数。

    memory

    实例的内存使用量,单位为MB。

    gpu

    实例使用的GPU个数。

    gpuMemory

    实例GPU内存使用量,单位为GB。

    nvidiaName

    实例使用的显卡名称。

    role

    实例所属的服务角色,可能值:

    • Queue:队列服务。

    • DataLoader:离线服务。

    • Standard:普通服务。

    isBurst

    是否属于Burstable管理的实例,可能值:

    • false:不属于Burstable管理的实例,即实例所属资源组未开启自动伸缩功能。

    • true:属于Burstable管理的实例,即实例所属资源组开启了自动伸缩功能。

    isSpot

    是否属于抢占式资源实例,可能值:

    • false:不属于抢占式资源实例。

    • true:属于抢占式实例。

    callerUid

    创建EAS服务的用户UID。

    timestamp

    事件发生的UTC时间。

    restartCount

    实例重启次数。

    exitCode

    实例的退出状态码,默认为空。

    status

    实例的状态,可能值请参见支持查看的EAS事件事件状态列。

    reason

    事件原因。

    message

    事件信息。

通过API接口

您也可以通过API接口查看EAS事件,详情请参见DescribeSystemEventAttribute

创建并启用事件报警规则

通过控制台

  1. 创建系统事件报警规则。其中关键参数配置如下。

    • 产品类型:选择机器学习

    • 事件类型:选择ServiceInstanceService

    • 事件等级:根据业务需要选择单个或多个事件等级。

    • 事件名称:选择需要监控的事件名称,即附录中的事件名称(中文)列。支持选择单个或多个事件名称。

    • 关键词过滤:设置关键词匹配事件信息中content的内容过滤订阅的事件。

    image

  2. 启用系统事件报警规则

通过API接口

您也可以通过API接口创建并启用事件报警规则,具体操作,请参见创建事件报警规则启用事件报警规则

常见问题

服务实例是指推理服务还是Pod实例?

事件类型为Service代表了服务级别的事件。事件类型为ServiceInstance代表服务实例级别的事件,此处的服务实例就是指Pod实例。

附录:支持查看的EAS事件

EAS定义了服务级别事件及服务实例级别事件如下。

事件类型

事件名

事件名称(中文)

事件级别

事件状态

ServiceInstance

EAS:ServiceInstance:Running

服务实例运行

INFO

Running

EAS:ServiceInstance:Pending

服务实例等待调度

INFO

Pending

EAS:ServiceInstance:Completed

服务实例运行结束

INFO

Completed

EAS:ServiceInstance:Terminating

服务实例开始删除

INFO

Terminating

EAS:ServiceInstance:Terminated

服务实例删除成功

INFO

Terminated

EAS:ServiceInstance:Unknown

服务实例未知异常

WARN

Unknown

EAS:ServiceInstance:Evicted

服务实例驱逐

WARN

Evicted

EAS:ServiceInstance:ErrImagePull

服务实例拉取镜像出错

WARN

ErrImagePull

EAS:ServiceInstance:ImagePullBackOff

服务实例拉取镜像失败

WARN

ImagePullBackOff

EAS:ServiceInstance:CrashLoopBackOff

服务实例崩溃

CRITICAL

CrashLoopBackOff

EAS:ServiceInstance:Error

服务实例内部错误

CRITICAL

Error

EAS:ServiceInstance:Failed

服务实例运行失败

CRITICAL

Failed

EAS:ServiceInstance:SpotToBeReleased

服务Spot实例即将被释放

WARN

SpotToBeReleased

Service

EAS:Service:ReplicasChanged

服务实例数量改变

INFO

ReplicasChanged

EAS:Service:StatusChanged

服务状态改变

INFO

StatusChanged

EAS:Service:Unavailable

服务不可用

CRITICAL

Unavailable

EAS:Service:UpdateFailed

服务更新失败

CRITICAL

UpdateFailed