机器阅读理解预测

您可以使用该组件对生成的机器阅读理解训练模型进行离线预测。本文为您介绍该组件的参数配置和使用示例。

使用限制

支持运行的计算资源为DLC。

可视化配置组件参数

  • 输入桩

    输入桩(从左到右)

    限制数据类型

    建议上游组件

    是否必选

    输入保存的模型

    OSS

    机器阅读理解训练

    预测数据输入

    OSS

    OSS数据

  • 组件参数

    Designer工作流页面配置组件参数。

    页签

    参数

    描述

    字段设置

    选择语种

    输入文件的语种,目前支持以下两种语言的机器阅读理解:

    • zh(默认值)

    • en

    输入数据格式

    输入文件中每列的数据格式,多列之间使用半角逗号(,)分隔。默认值为qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1。

    问句列

    问句在输入文件中对应的列名,默认值为question_text。

    篇章列

    篇章文本在数据文件中对应的列名,默认值为context_text。

    回复列

    答案在输入文件中对应的列名,默认值为answer_text。

    Id

    ID在输入文件中对应的列名,默认值为qas_id。

    起始位置列

    在输入文件中,答案在篇章文本中的起始位置对应的列名。默认值为start_position_character。

    预测数据输出

    配置OSS Bucket中的目录,用来存储机器阅读理解模型预测的答案文件。

    使用自定义模型

    选择是否使用自定义模型,取值如下:

    • (默认值):对应上述方式一。

    • :对应上述方式二。

    模型存储路径

    使用自定义模型时,需要配置该参数。

    配置OSS Bucket中的目录,用来存储自定义模型文件。

    参数设置

    批次大小

    训练过程中的批处理大小。如果使用多机多卡,则表示每个GPU上的批处理大小。INT类型,默认值为256。

    篇章最大长度

    表示系统可处理的篇章最大长度,INT类型,默认值为384。

    问句最大长度

    表示系统可处理的问句最大长度,INT类型,默认值为64。

    回复最大长度

    表示系统可抽取的答案最大长度,INT类型,默认值为30。

    滑动窗口大小

    对篇章进行滑动窗口切分时,滑动窗口的大小。INT类型,默认值为128。

    pretrainModelNameOrPath

    系统提供的预训练模型名称或路径选择,取值如下:

    • 用户自定义

    • hfl/macbert-base-zh(默认值)

    • hfl/macbert-large-zh

    • bert-base-uncased

    • bert-large-uncased

    模型额外参数

    用户自定义参数,您可以根据自己的数据对模型参数进行调整。

    格式为:{A: xxx, B: xxx} ,键和值之间使用半角冒号(:)分隔,多个参数之间使用半角逗号(,)分隔。

    执行调优

    GPU机型类型

    计算资源的GPU机型。默认值为gn5-c8g1.2xlarge,表示8CPU、80 GB内存、P100单卡。

    指定WorkerGPU卡数

    每个Worker下的GPU卡数量,默认值为1。

使用示例

您可以使用该组件构建如下工作流。image

本示例中,您需要按照以下流程配置组件:

  1. 准备预测数据集,并上传到OSS Bucket路径。具体操作,请参见步骤三:上传文件

    数据集支持TSVTXT格式的文件,包含ID列、篇章列、问句列、答案列(非必须)、起始位置列(非必须)、标题列(非必须)。

    本示例以TSV文件为例,来说明如何进行模型预测。

  2. 使用读OSS数据-3组件读取预测数据集。即配置OSS数据组件的OSS数据路径参数为存放预测数据集的OSS路径。

  3. 将预测数据集接入机器阅读理解预测组件,并配置具体参数,详情请参见上文的组件参数

相关文档

  • 机器阅读理解预测组件需要和机器阅读理解训练组件配合使用。关于机器阅读理解训练组件的使用方法,请参见机器阅读理解训练

  • 关于Designer组件更详细的内容介绍,请参见Designer概述

  • Designer预置了多种算法组件,你可以根据不同的使用场景选择合适的组件进行数据处理,详情请参见组件参考:所有组件汇总