MaxCompute作业运维功能支持查看历史作业和正在运行的作业,方便您了解作业运行详情及分析作业运行时的资源负载情况,帮助您对作业进行运维管理。
功能介绍
MaxCompute的作业运维功能支持查看并运维您当前项目下历史作业和正在运行的作业。
如果您是数据开发人员,作业运维功能方便您日常查看作业详情,及时发现作业的异常情况和问题,对有问题的作业及时进行处理,例如终止或批量终止作业。
如果您是管理员,作业运维功能方便您日常结合配额组查看某时刻的资源负载,合理分配和管理系统资源,提高作业的执行效率和性能。
您可以在MaxCompute管理控制台的作业运维页面通过配置过滤条件筛选目标作业,实现查看作业详情、分析作业等功能。具体功能如下:
操作功能
过滤作业
按照过滤参数对作业进行过滤,筛选出您希望查看的作业,过滤作业参数说明如下。
排序作业
作业筛选结果默认按作业结束时间从高到低排序,未结束的作业会排在最前。支持普通单列排序和高级多列排序。
普通单列排序:对列表中有排序按钮的列进行升序或降序排列。
高级多列排序:单击列表右上方的高级排序按钮,通过添加排序增加多列列名,并指定每列的排序方式为升序或降序,单击确定实现多列排序。
高级排序条件生效时,无法进行普通单列排序,需单击列表右上方的高级排序按钮,单击重置并确定后,方可再进行普通单列排序。
查看作业详情
您可以在作业列表,单击目标作业操作列的LogView跳转至LogView页面,查看作业运行的状态、细节及结果。
终止作业
您可以对最新状态为
正在运行(Running)
状态的作业,执行终止或批量终止操作。洞察作业
您可以对单个作业执行洞察操作,以查看作业概览信息、资源消耗情况及某时刻计算Quota的资源分配情况,并触发作业智能诊断操作。
当前仅支持对SQL作业进行智能诊断。
运行时长小于2分钟或作业类型为SQL、MapReduce、Spark、Mars以外的作业,暂时没有作业级别资源消耗数据。
作业统计图
根据过滤条件筛选的结果,按时间和状态绘制作业数统计堆积柱形图,方便您查看作业运行整体情况。
作业列表
作业列表即根据过滤条件筛选的作业结果,主要提供常用的作业信息方便您进行作业运维。MaxCompute分别提供普通列表和快照列表,用于不同场景的作业信息获取:
普通列表:用于查看一段时间内的所有作业信息。
快照列表:用于查看某一时刻正在运行的作业快照信息,包括快照状态,以及在快照时间点的CPU、内存使用和请求量及占比。
目前已知如下作业信息无法采集:
作业快照数据是三分钟采集一次,因此有些作业快照数据采集不到,即在采集前三分钟以内启动的作业,采集不到快照数据。
通过PAI发起的部分MaxCompute作业(特别是RAM用户发起的作业)暂时采集不到。
开发者版(即将停用)项目的作业采集不到。
由于数据处理有一定的频率,当查看当前时刻的作业列表时,可能会出现一些作业当前状态为Running
但LogView里看作业已经结束,特别是执行时间非常短的作业容易出现此情况,请以LogView里看到的最新状态为准。
参数说明:
列名称 | 说明 |
Instance ID | 每个MaxCompute作业都会生成一个Instance,每个Instance又会生成一个对应的Instance ID。同时显示该作业所属项目、计算Quota、类型信息。
|
最新状态 | 作业当前最新状态。 |
作业Owner | 运行MaxCompute作业的阿里云账号。 您可以根据账号信息找到作业所属责任人。如果某个作业占用资源较多,影响其他任务运行,可以联系对应责任人停止作业。停止作业的方法请参见实例操作。 |
优先级 | 每个作业都有优先级(Priority),取值为0~9,数值越小,表示优先级越高。高优先级作业会先于低优先级作业获取计算资源,具体说明请作业优先级。 |
提交时间 | Instance的提交时间。 |
开始运行时间 | 作业获取第一份计算资源的时间。对于运行时间过短或不消耗计算资源(如DDL语句)的作业,以作业提交时间替代。默认不显示,可单击自定义列表选项设置显示。 |
等待时长 | 作业从提交时间到开始运行时间的时长。默认不显示,可单击自定义列表选项设置显示。 |
运行时长 | 作业从开始运行时间到结束运行时间的时长。默认不显示,可单击自定义列表选项设置显示。 |
结束运行时间 | Instance运行结束时间。 |
总运行时长 | 作业从提交时间到结束时间总时长。 |
CPU累计使用量 | 作业整个执行过程的CPU消耗总和,单位: |
内存累计使用量 | 作业整个执行过程的内存消耗总和,单位: |
扫描量 | 作业的计算输入数据量。 |
智能诊断 | 根据作业智能诊断得出结果后所生成的标签。 |
ExtPlantFrom | 作业发起的客户端。 例如DataWorks,需要发起端发起作业的时候主动传入信息。 |
ExtNodeId | 作业发起端对应的任务ID。 例如DataWorks的节点ID,需要发起端发起作业的时候主动传入信息。 |
ExtNodeOnDuty | 作业发起端对应的任务负责人账号ID。 例如DataWorks的节点负责人,需要发起端发起作业的时候主动传入信息。 |
Signature | SQL作业签名。 可通过此签名查找SQL每次执行的Instances。 |
参数说明:
列名称 | 参数说明 |
Instance ID | 每个MaxCompute作业都会生成一个Instance,每个Instance又会生成一个对应的Instance ID。同时显示该作业所属项目、计算Quota、类型信息。 您可以单击InstanceID对应操作列的LogView跳转至LogView页面,查看作业的具体进度。查看LogView的方法,请参见使用Logview 2.0查看作业运行信息。 您也可以单击InstanceID对应操作列的洞察跳转至作业洞察页面,查看作业的诊断结果、资源消耗及相似作业信息,具体请参见作业洞察。 |
快照时间 | 作业快照信息采集的时间。 |
快照状态 | 作业在快照采集时刻的状态。 |
作业Owner | 运行MaxCompute作业的阿里云账号。 您可以根据账号信息找到作业所属责任人。如果某个作业占用资源较多,影响其他任务运行,可以联系对应责任人停止作业。停止作业的方法请参见实例操作。 |
优先级 | 每个作业都有优先级(Priority),取值为0~9,数值越小,表示优先级越高。高优先级作业会先于低优先级作业获取计算资源,具体说明请作业优先级。 |
CPU使用量 | 作业在快照时间点的 CPU 使用量。单位:Core。 |
CPU请求量 | 作业在快照时间点的 CPU 请求量。单位:Core。 |
CPU满足率 | 作业在快照时间点的CPU使用量/CPU请求量。 |
CPU使用占比快照 | 作业在观测时刻的CPU使用占比( |
内存使用量 | 作业在快照时间点的内存使用量。单位自适应展示。 |
内存请求量 | 作业在快照时间点的内存请求量。单位自适应展示。 |
内存满足率 | 作业在快照时间点的内存使用量/内存请求量。 |
内存使用占比快照 | 作业在观测时刻的内存使用占比( |
提交时间 | Instance的提交时间。 |
总运行时长 | 作业从提交时间到快照时间总时长。 |
ExtPlantFrom | 作业发起的客户端。 例如DataWorks,需要发起端发起作业的时候主动传入信息。 |
ExtNodeId | 作业发起端对应的任务ID。 例如DataWorks的节点ID,需要发起端发起作业的时候主动传入信息。 |
ExtNodeOnDuty | 作业发起端对应的任务负责人账号ID。 例如DataWorks的节点负责人,需要发起端发起作业的时候主动传入信息。 |
Signature | SQL作业签名。 可通过此签名查找SQL每次执行的Instances。 |
常用运维场景示例
查看具体作业运行详情
运维场景
您需要查看某个DataWorks小时调度节点发起的作业运行情况或需要对指定的MaxCompute作业进行审计。
操作步骤
登录MaxCompute管理控制台的作业运维页面。
根据实际需要设置时间范围。
单击搜索。
在作业列表上方,选择ExtNodeId或Instance ID参数,填入您作业的实际值。
单击按钮,对作业列表再次过滤。
您可以在查询结果列表中,单击目标Instance操作列的LogView,跳转至LogView页面,查看作业运行详细信息。更多LogView信息请参见使用LogView 2.0查看作业运行信息。
查看某个时段的作业运行详情
运维场景
您需要查看负责的Project_1、Project_2两个项目最近一天执行的作业,并分析哪些作业执行失败,以便对失败作业进行处理。
操作步骤
登录MaxCompute管理控制台的作业运维页面。
设置时间范围为1d或设置时间范围为从这一天
00:00:00
开始到当前时间。在项目选择下拉列表选择Project_1和Project_2。
您可以在查询结果列表中,单击目标Instance操作列的LogView,跳转至LogView页面,查看作业运行详细信息。更多LogView信息请参见使用LogView 2.0查看作业运行信息。
查看包年包月Quota某个时间点作业占用资源情况
运维场景
您的
预付费默认Quota
这个Quota当前资源使用的水位很满,很多作业在等待,您需要查看具体什么作业在占用Quota资源。操作步骤
登录MaxCompute管理控制台的作业运维页面。
设置时间范围为1h或自定义
开始时间
,结束时间
即观测时间输入当前的时间。设置Quota选择参数为
预付费默认Quota
。单击搜索。
您可以在查询结果列表中,查看快照状态为
Running
作业的CPU使用占比快照和内存使用占比快照,可以查看占比最大的作业是否满足业务情况,并通过其他作业信息辅助决定该作业是否为正常作业或者需要终止(kill)作业。每个作业的更多作业信息可以单击目标Instance操作列的LogView,跳转至LogView页面,查看作业运行详细信息。更多LogView信息请参见使用LogView 2.0查看作业运行信息。
查看查询加速作业运行详情
运维场景
您想要查看最近一天查询加速作业的运行状态和详情。
操作步骤
登录MaxCompute管理控制台的作业运维页面。
设置时间范围为1d,作业类型选择SQLRT(查询加速)。
单击搜索。
在作业列表查看作业基础信息,每个作业的更多作业信息可以单击目标Instance操作列的LogView,跳转至LogView页面,查看作业运行详细信息。更多LogView信息请参见使用LogView 2.0查看作业运行信息。
使用查询加速功能的作业,会出现多个SQL命令在同一个会话(Session)中执行的情况,一个会话对应一个Instance ID,您可以通过Instance ID对应的LogView查看该会话中所有SQL的运行情况。因此在作业运维页面查看查询加速作业时,您需要注意:
会话未退出时,即部分SQL已完成,部分SQL还在运行,作业的最新状态为
Running
。会话过期退出或因为关闭界面退出时,作业的最新状态为
Cancelled
。
查看作业资源消耗情况及某时刻计算Quota的资源分配情况
运维场景
当遇到作业运行较长时间仍未结束且通过LogView难以定位原因,或作业运行结束后,发现作业运行时长达不到预期(作业运行慢),您需要分析是否是因为资源供给导致的。
操作步骤
登录MaxCompute管理控制台的作业运维页面。
选择时间范围同时配合Quota选择参数进行过滤,单击搜索。
单击目标Instance ID操作列的洞察,跳转至作业洞察页面。
在资源消耗页签查看作业生命周期内的资源消耗情况。
资源消耗图展示作业级别的使用CU与等待CU随时间的变化曲线图,以及作业运行的Quota级别的使用CU与等待CU随时间变化。若发现作业使用CU较低,而Quota级别使用CU较高,甚至持续达到上限,说明Quota资源紧张,有其他作业在与当前作业抢占计算资源。
您可以通过单击资源消耗图横轴的时间点,查看对应时刻计算Quota级别的资源分配情况,具体为所有运行中、等待中的资源分配给的作业数量与优先级分布,您可以单击目标优先级对应的色块跳转至作业列表,查看对应作业的详细信息。以此判断出具体是哪些作业在与当前作业抢占计算资源。您可以依据业务情况优化任务执行情况,进行作业优先级调整或计算资源管理,详情请参见作业优先级或计算资源-Quota管理。
下一步
相关文档
通过命令查看作业信息、状态和停止作业等操作,请参见实例操作。
- 本页导读 (1)
- 功能介绍
- 操作功能
- 作业统计图
- 作业列表
- 常用运维场景示例
- 查看具体作业运行详情
- 查看某个时段的作业运行详情
- 查看包年包月Quota某个时间点作业占用资源情况
- 查看查询加速作业运行详情
- 查看作业资源消耗情况及某时刻计算Quota的资源分配情况
- 下一步
- 相关文档