机器阅读理解训练

更新时间: 2023-02-10 09:38:24

您可以使用该组件训练机器阅读理解模型,针对给定的文档及问题,进行快速理解与问答,实现基于文档的智能问答。本文为您介绍该组件的参数配置与使用示例。

使用限制

支持运行的计算资源为MaxCompute和DLC。

可视化配置组件参数

输入桩

输入桩(从左到右)

限制数据类型

建议上游组件

是否必选

训练数据

OSS

读OSS数据

验证数据

OSS

读OSS数据

组件参数

页签

参数

描述

字段设置

选择语种

输入文件的语种,目前支持以下两种语言的机器阅读理解:

  • zh(默认值)

  • en

输入数据格式

输入文件中每列的数据格式,多列之间使用半角逗号(,)分隔。默认值为:qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1

问句列

问句在输入文件中对应的列名,默认值为question_text。

篇章列

篇章文本在输入文件中对应的列名,默认值为context_text。

回复列

答案在输入文件中对应的列名,默认值为answer_text。

ID列

ID在输入文件中对应的列名,默认值为qas_id。

起始位置列

在输入文件中,答案在篇章文本中的起始位置对应的列名。默认值为start_position_character。

模型存储路径

配置OSS Bucket中的目录,用来存储机器阅读理解模型训练或微调后生成的模型文件。

参数设置

批次大小

训练过程中的批处理大小,INT类型,默认值为4。如果使用多机多卡,则表示每个GPU上的批处理大小。

篇章最大长度

表示系统可处理的篇章最大长度,INT类型,默认值为384。

问句最大长度

表示系统可处理的问句最大长度,INT类型,默认值为64。

滑动窗口大小

对篇章进行滑动窗口切分时,滑动窗口的大小。INT类型,默认值为128。

迭代轮数

训练总Epoch的数量,INT类型,默认值为3。

学习率

模型构建过程中的学习率,FLOAT类型,默认值为3.5e-5。

保存Checkpoint步数

表示每训练多少步,对模型进行评价,并保存当前最优模型。INT类型,默认值为600。

pretrainModelNameOrPath

系统提供的预训练模型名称路径选择,取值如下:

  • 自定义

  • hfl/macbert-base-zh(默认值)

  • hfl/macbert-large-zh

  • bert-base-uncased

  • bert-large-uncased

模型额外参数

用户自定义参数,您可以根据自己的数据对模型参数进行调整。

如果您想采用自定义的预训练或微调好的模型时,可以在这里声明。格式为:{A: xxx, B: xxx} ,键和值之间使用半角冒号(:)分隔,多个参数之间使用半角逗号(,)分隔。

执行调优

GPU机器类型

计算资源的GPU机型。默认值为gn5-c8g1.2xlarge,表示8核CPU、80 GB内存、P100单卡。

指定Worker的GPU卡数

每个Worker下的GPU卡数量。默认值为1。

输出桩

输出桩(从左到右)

数据类型

下游组件

输出模型

OSS路径。该路径是您在字段设置页签的模型存储路径参数配置的OSS路径。训练生成的模型存储在该路径下。

机器阅读理解预测

使用示例

您可以使用该组件构建如下工作流。image

本示例中,您需要按照以下流程配置组件:

  1. 准备训练数据集验证数据集

    数据集支持TSV或TXT格式的文件,包含以下列:

    • 训练数据集

      ID列、篇章列、问句列、答案列、起始位置列、标题列(非必须)。

    • 验证数据集

      ID列、篇章列、问句列、答案列(非必须)、起始位置列(非必须)、标题列(非必须)。

    本示例以TSV文件为例,来说明如何进行模型训练。

  2. 使用读OSS数据-1读OSS数据2组件分别读取训练数据集和验证数据集。即配置读OSS数据组件的OSS数据路径参数为存放训练数据集和验证数据集的OSS路径。

  3. 将训练数据集和验证数据集接入机器阅读理解训练组件,并配置具体参数,详情请参见上文的组件参数

阿里云首页 人工智能平台 PAI 相关技术圈