使用Spark SQL诊断优化查询性能瓶颈-云原生数据仓库AnalyticDB-阿里云

云原生数据仓库 AnalyticDB MySQL 版推出Spark SQL诊断功能，若您提交的Spark SQL存在性能问题，您可以根据诊断信息快速定位、分析并解决性能瓶颈问题，优化Spark SQL。本文主要介绍如何进行Spark SQL性能诊断以及性能诊断的示例。

前提条件

集群的产品系列为企业版、基础版或湖仓版。
已创建Job型资源组。
已创建数据库账号。
- 如果是通过阿里云账号访问，只需创建高权限账号。
- 如果是通过RAM用户访问，需要创建高权限账号和普通账号并且将RAM用户绑定到普通账号上。
已授权AnalyticDB for MySQL扮演AliyunADBSparkProcessingDataRole角色来访问其他云资源。

仅支持诊断14天以内且执行成功的Spark SQL。

登录云原生数据仓库AnalyticDB MySQL控制台，在左上角选择集群所在地域。在左侧导航栏，单击集群列表，在企业版、基础版或湖仓版页签下，单击目标集群ID。

在左侧导航栏，单击诊断优化 > Spark SQL诊断优化。

查询列表展示SQL查询的更多信息，例如具体的SQL语句、查询提交时间、执行耗时等，详细说明如下：

字段名	字段说明
操作	单击诊断，查看执行详情，包括详细SQL语句以及诊断结果。
SQL	SQL语句。
查询ID	查询ID。
执行ID	Spark SQL应用中该SQL的顺序ID。
状态	SQL语句的执行状态，包括：已完成运行中失败
开始时间	查询提交的时间。
执行耗时	SQL语句的执行耗时。
最大算子独占时间	算子单独占用的最大执行时间。
峰值内存	查询消耗的峰值内存。
扫描数据	查询从存储层返回到计算层的数据量。

AnalyticDB for MySQL的Spark SQL诊断功能可以对Spark SQL查询的Query级别的信息进行统计，再在统计信息的基础上进行诊断并提供调优建议。