文档

管理导入任务

更新时间:

导入任务是EMR StarRocks Manager中的一个功能模块,旨在降低用户在导入任务管理方面的运维成本,提供可视化的导入任务管理能力。本文为您介绍如何使用EMR StarRocks Manager管理导入任务。

背景信息

该页面的数据来自于使用StarRocks内核提供的查询命令(例如show load)所得到的结果,这些数据的生命周期与内核中数据存储的生命周期相同。

该功能适用于以下场景:

  • 查看某一个导入任务的数据导入情况,包括已导入的数据条数和数据大小等信息。

  • 查看某一个导入失败任务的错误情况,以及原因分析。

  • 如果表数据出现错误或延迟,需要从导入任务做排查,以看到任务是否正在在运行,是否存在延迟等情况。

前提条件

已连接对应的实例,详情请参见管理StarRocks Manager连接

使用限制

该功能仅支持2.5.8-1.7-1.1.3及之后版本使用。

查看导入任务列表

重要

如果要查看Stream Load任务的信息,需要在导入任务前在StarRocks实例中设置set global enable_load_profile = true,才能看到任务信息。

在EMR StarRocks Manager的导入任务页面,支持:

  • 查看Broker Load(包含了Insert Into)、RoutineLoad和Stream Load导入任务。

    说明

    本文中的Broker Load都包含了Insert Into导入任务。

  • 根据任务ID、任务创建时间进行升降序排序。

  • 通过数据库名、数据表名、任务ID、标签、状态、创建时间范围筛选任务。

    状态说明如下表。

    Broker Load

    状态

    说明

    终态

    FINISHED

    导入任务成功。

    CANCELLED

    导入任务失败。

    非终态

    QUEUEING

    导入任务正在等待执行中。

    PENDING

    导入任务已创建。

    LOADING

    导入任务正在执行中。

    PREPARED

    导入任务已提交。

    Routine Load

    状态

    说明

    终态

    STOPPED

    导入任务停止。

    CANCELLED

    导入任务失败。

    非终态

    NEED_SCHEDULE

    等待任务调度。

    RUNNING

    导入任务正在执行中。

    PAUSED

    导入任务暂停。

    Stream Load

    状态

    说明

    终态

    FINISHED

    导入任务成功。

    CANCELLED

    导入任务失败。

    非终态

    BEGIN

    开始导入任务。

    BEFORE_LOAD

    准备写入数据。

    LOADING

    写入数据。

    PREPARING

    预提交导入任务。

    PREPARED

    预提交导入任务成功。

    COMMITED

    提交导入任务。

查看导入任务详情

在EMR StarRocks Manager的导入任务页面,单击目标任务ID,在任务详情页面,可以查看任务详情。

如果有导入失败的任务,您可以查看详细的错误日志。各导入任务部分字段名介绍如下。

Broker Load

字段名

说明

etlInfo

ETL(Extract Transform Load)信息。

taskInfo

创建导入任务时指定的参数,包括:

  • resource:该参数在Broker Load导入任务中无实际意义。

  • timeout:导入任务的超时时间。单位:秒。

  • max-filter-ratio:导入任务的最大容忍率,即导入任务能够容忍的因数据不规范等原因而过滤掉的数据行所占的最大比例。

jobDetails

导入任务的详细信息,包括任务数量、文件数量和大小、数据量、行数等。

errorMessage

导入任务的失败原因。当导入任务的状态为PENDING,LOADING或FINISHED时,该参数值为NULL。当导入任务的状态为CANCELLED时,该参数值包括type和msg两部分:

  • type:

    • USER_CANCEL:导入任务被手动取消。

    • ETL_SUBMIT_FAIL:导入任务提交失败。

    • ETL_QUALITY_UNSATISFIED:数据质量不合格,即导入任务的错误数据率超过了max-filter-ratio。

    • LOAD_RUN_FAIL:导入任务在LOAD阶段失败。

    • TIMEOUT:导入任务未在允许的超时时间内完成。

    • UNKNOWN:未知的导入错误。

  • msg:显示有关失败原因的详细信息。

trackingSQL

查询错误日志的SQL。

trackingLogs

详细错误日志。

Routine Load

字段名

说明

jobProperties

任务属性,包括一些配置信息等。

dataSourceProperties

数据源属性。

customProperties

自定义属性。

statistics

统计信息(包括行数、数据量等)。

reasonOfStateChanged

状态改变原因。

errorLogUrls

错误日志链接。

otherMsg

其他信息。

trackingSQL

查询错误日志的SQL。

trackingLogs

详细错误日志。

Stream Load

字段名

说明

errorMessage

错误信息。

trackingSQL

查询错误日志的SQL。

trackingLogs

详细错误日志。

查看导入任务Profile

在EMR StarRocks Manager的导入任务页面,单击目标任务ID,在任务Profile页面,可以查看导入任务Profile。

支持查看最近500条BrokerLoad和StreamLoad导入任务的Profile。

说明

StarRocks实例最多保留最近500条导入任务的Profile。由于Stream Load在高频实时导入场景下会产生大量小任务,默认限制超过10s的Stream Load任务才会采集Profile。

操作导入任务

您可以在EMR StarRocks Manager的导入任务页面,对非终态的Broker Load、Routine Load导入任务进行操作。

任务类型

操作

说明

Broker Load

取消

导入任务会进入CANCELLED状态。

Routine Load

暂停

导入任务会进入PAUSED状态,但是导入任务未结束,可以通过恢复操作来重启导入任务。

恢复

导入任务会先短暂地进入NEED_SCHEDULE状态,表示正在重新调度导入任务,一段时间后会恢复至RUNNING状态,继续消费Kafka消息并且导入数据。

停止

导入任务会进入STOPPED状态,代表此导入任务已经结束,且无法恢复。

导入任务示例

  1. 创建两个Broker Load任务,详情请参见Broker Load

    第二个导入任务,您可以修改数据表,手动造一些脏数据,用来模拟导入失败的情况。

    如果创建其他方式的导入任务,请参见Insert IntoRoutine LoadStream Load

  2. 进入StarRocks Manager页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Serverless > StarRocks

    3. 在顶部菜单栏处,根据实际情况选择地域。

    4. 单击已创建实例的名称。

    5. 单击右侧的StarRocks Manager

  3. 连接StarRocks实例,详情请参见管理StarRocks Manager连接

  4. 在左侧导航栏,单击导入任务

    该页面为您展示当前账号下所有的导入任务信息。

    当任务状态为CANCELLED时,将鼠标悬停在任务状态处可查看简要的错误信息,如需查看详细错误日志,请进入到任务详情页面查看。

  5. 单击待查看的导入任务类型。

    默认展示Broker Load任务类型。

  6. 单击待查看的任务ID

    该页面为您展示该导入任务的任务详情和任务Profile。

  • 本页导读 (1)
文档反馈