导入任务是EMR StarRocks Manager中的一个功能模块,旨在降低用户在导入任务管理方面的运维成本,提供可视化的导入任务管理能力。本文为您介绍如何使用EMR StarRocks Manager管理导入任务。
背景信息
该页面的数据来自于使用StarRocks内核提供的查询命令(例如show load
)所得到的结果,这些数据的生命周期与内核中数据存储的生命周期相同。
该功能适用于以下场景:
查看某一个导入任务的数据导入情况,包括已导入的数据条数和数据大小等信息。
查看某一个导入失败任务的错误情况,以及原因分析。
如果表数据出现错误或延迟,需要从导入任务做排查,以看到任务是否正在运行,是否存在延迟等情况。
前提条件
已连接对应的实例,详情请参见SQL Editor。
使用限制
该功能仅支持2.5.8-1.7-1.1.3及之后版本使用。
查看导入任务列表
如果要查看Stream Load任务的信息,需要在导入任务前在StarRocks实例中设置set global enable_load_profile = true
,才能看到任务信息。
在EMR StarRocks Manager的导入任务页面,支持:
查看Broker Load、RoutineLoad、Stream Load和Insert导入任务。
根据任务ID、任务创建时间进行升降序排序。
通过计算组、数据库名、数据表名、任务ID、状态和标签筛选任务。
状态说明如下表。
Broker Load
状态
说明
终态
FINISHED
导入任务成功。
CANCELLED
导入任务失败。
非终态
QUEUEING
导入任务正在等待执行中。
PENDING
导入任务已创建。
LOADING
导入任务正在执行中。
PREPARED
导入任务已提交。
Routine Load
状态
说明
终态
STOPPED
导入任务停止。
CANCELLED
导入任务失败。
非终态
NEED_SCHEDULE
等待任务调度。
RUNNING
导入任务正在执行中。
PAUSED
导入任务暂停。
Stream Load
状态
说明
终态
FINISHED
导入任务成功。
CANCELLED
导入任务失败。
非终态
BEGIN
开始导入任务。
BEFORE_LOAD
准备写入数据。
LOADING
写入数据。
PREPARING
预提交导入任务。
PREPARED
预提交导入任务成功。
COMMITED
提交导入任务。
Insert任务
说明仅限于内表的Insert任务。
状态
说明
终态
FINISHED
导入任务成功。
CANCELLED
导入任务失败。
非终态
QUEUEING
导入任务正在等待执行中。
PENDING
导入任务已创建。
LOADING
导入任务正在执行中。
PREPARED
导入任务已提交。
查看导入任务详情
在EMR StarRocks Manager的导入任务页面,单击目标任务ID,在任务详情页面,可以查看任务详情。
如果有导入失败的任务,您可以查看详细的错误日志。各导入任务部分字段名介绍如下。
Broker Load
字段名 | 说明 |
etlInfo | ETL(Extract Transform Load)信息。 |
taskInfo | 创建导入任务时指定的参数,包括:
|
jobDetails | 导入任务的详细信息,包括任务数量、文件数量和大小、数据量、行数等。 |
errorMessage | 导入任务的失败原因。当导入任务的状态为PENDING,LOADING或FINISHED时,该参数值为NULL。当导入任务的状态为CANCELLED时,该参数值包括type和msg两部分:
|
trackingSQL | 查询错误日志的SQL。 |
trackingLogs | 详细错误日志。 |
Routine Load
字段名 | 说明 |
jobProperties | 任务属性,包括一些配置信息等。 |
dataSourceProperties | 数据源属性。 |
customProperties | 自定义属性。 |
statistics | 统计信息(包括行数、数据量等)。 |
reasonOfStateChanged | 状态改变原因。 |
errorLogUrls | 错误日志链接。 |
otherMsg | 其他信息。 |
trackingSQL | 查询错误日志的SQL。 |
trackingLogs | 详细错误日志。 |
Stream Load
字段名 | 说明 |
errorMessage | 错误信息。 |
trackingSQL | 查询错误日志的SQL。 |
trackingLogs | 详细错误日志。 |
Insert任务
字段名 | 说明 |
etlInfo | ETL(Extract Transform Load)信息。 |
taskInfo | 创建导入任务时指定的参数,包括:
|
jobDetails | 导入任务的详细信息,包括任务数量、文件数量和大小、数据量、行数等。 |
errorMessage | 导入任务的失败原因。当导入任务的状态为PENDING,LOADING或FINISHED时,该参数值为NULL。当导入任务的状态为CANCELLED时,该参数值包括type和msg两部分:
|
trackingSQL | 查询错误日志的SQL。 |
trackingLogs | 详细错误日志。 |
查看导入任务Profile
在EMR StarRocks Manager的导入任务页面,单击目标任务ID,在任务Profile页面,可以查看导入任务Profile。
支持查看最近500条BrokerLoad和StreamLoad导入任务的Profile。
StarRocks实例最多保留最近500条导入任务的Profile。由于Stream Load在高频实时导入场景下会产生大量小任务,默认限制超过10s的Stream Load任务才会采集Profile。
操作导入任务
您可以在EMR StarRocks Manager的导入任务页面,对非终态的Broker Load、Routine Load导入任务进行操作。
任务类型 | 操作 | 说明 |
Broker Load | 取消 | 导入任务会进入CANCELLED状态。 |
Routine Load | 暂停 | 导入任务会进入PAUSED状态,但是导入任务未结束,可以通过恢复操作来重启导入任务。 |
恢复 | 导入任务会先短暂地进入NEED_SCHEDULE状态,表示正在重新调度导入任务,一段时间后会恢复至RUNNING状态,继续消费Kafka消息并且导入数据。 | |
停止 | 导入任务会进入STOPPED状态,代表此导入任务已经结束,且无法恢复。 |
导入任务示例
创建两个Broker Load任务,详情请参见Broker Load。
第二个导入任务,您可以修改数据表,手动造一些脏数据,用来模拟导入失败的情况。
如果创建其他方式的导入任务,请参见Insert Into、Routine Load、Stream Load。
进入StarRocks Manager页面。
在左侧导航栏,选择
。在顶部菜单栏处,根据实际情况选择地域。
单击StarRocks Manager,或者单击已创建实例操作列的连接实例。
连接StarRocks实例详情,请参见通过EMR StarRocks Manager连接StarRocks实例。
连接StarRocks实例,详情请参见SQL Editor。
在左侧导航栏,单击导入任务。
该页面为您展示当前账号下所有的导入任务信息。
当任务状态为CANCELLED时,将鼠标悬停在任务状态处可查看简要的错误信息,如需查看详细错误日志,请进入到任务详情页面查看。
单击待查看的导入任务类型。
默认展示Broker Load任务类型。
单击待查看的任务ID。
该页面为您展示该导入任务的任务详情和任务Profile。