机器阅读理解训练组件参数配置与使用-人工智能平台 PAI-阿里云

您可以使用该组件训练机器阅读理解模型，针对给定的文档及问题，进行快速理解与问答，实现基于文档的智能问答。本文为您介绍该组件的参数配置与使用示例。

使用限制

支持运行的计算资源为DLC。

可视化配置组件参数

输入桩
输入桩（从左到右）
限制数据类型
建议上游组件
是否必选
训练数据输入
OSS
读OSS数据
是
验证数据输入
OSS
读OSS数据
是

组件参数

页签	参数	描述
字段设置	选择语种	输入文件的语种，目前支持以下两种语言的机器阅读理解： zh（默认值） en
	输入数据格式	输入文件中每列的数据格式，多列之间使用半角逗号（,）分隔。默认值为：qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1。
	问句列	问句在输入文件中对应的列名，默认值为question_text。
	篇章列	篇章文本在输入文件中对应的列名，默认值为context_text。
	回复列	答案在输入文件中对应的列名，默认值为answer_text。
	ID列	ID在输入文件中对应的列名，默认值为qas_id。
	起始位置列	在输入文件中，答案在篇章文本中的起始位置对应的列名。默认值为start_position_character。
	模型存储路径	配置OSS Bucket中的目录，用来存储机器阅读理解模型训练或微调后生成的模型文件。
参数设置	批次大小	训练过程中的批处理大小，INT类型，默认值为4。如果使用多机多卡，则表示每个GPU上的批处理大小。
	篇章最大长度	表示系统可处理的篇章最大长度，INT类型，默认值为384。
	问句最大长度	表示系统可处理的问句最大长度，INT类型，默认值为64。
	滑动窗口大小	对篇章进行滑动窗口切分时，滑动窗口的大小。INT类型，默认值为128。
	迭代轮数	训练总Epoch的数量，INT类型，默认值为3。
	学习率	模型构建过程中的学习率，FLOAT类型，默认值为3.5e-5。
	保存Checkpoint步数	表示每训练多少步，对模型进行评价，并保存当前最优模型。INT类型，默认值为600。
	模型选择	系统提供的预训练模型名称路径选择，取值如下：自定义 hfl/macbert-base-zh（默认值） hfl/macbert-large-zh bert-base-uncased bert-large-uncased
	自定义模型路径	当模型选择参数选择自定义时，支持配置该参数。如果您想采用自定义的预训练或微调好的模型时，可以在这里声明。格式为：`{A: xxx, B: xxx}` ，键和值之间使用半角冒号（:）分隔，多个参数之间使用半角逗号（,）分隔。
执行调优	GPU机器类型	计算资源的GPU机型。默认值为gn5-c8g1.2xlarge，表示8核CPU、80 GB内存、P100单卡。
执行调优	指定Worker的GPU卡数	每个Worker下的GPU卡数量。默认值为1。

输出桩

输出桩（从左到右）	数据类型	下游组件
模型存储路径	OSS路径。该路径是您在字段设置页签的模型存储路径参数配置的OSS路径。训练生成的模型存储在该路径下。	机器阅读理解预测

使用示例

您可以使用该组件构建如下工作流。

本示例中，您需要按照以下流程配置组件：

准备训练数据集和验证数据集，并上传到OSS Bucket路径。具体操作，请参见步骤三：上传文件。
数据集支持TSV或TXT格式的文件，包含以下列：
- 训练数据集
  ID列、篇章列、问句列、答案列、起始位置列、标题列（非必须）。
- 验证数据集
  ID列、篇章列、问句列、答案列（非必须）、起始位置列（非必须）、标题列（非必须）。
本示例以TSV文件为例，来说明如何进行模型训练。
使用读OSS数据-1、读OSS数据-2组件分别读取训练数据集和验证数据集。即配置读OSS数据组件的OSS数据路径参数为存放训练数据集和验证数据集的OSS路径。
将训练数据集和验证数据集接入机器阅读理解训练组件，并配置具体参数，详情请参见上文的组件参数。

输入桩（从左到右）	限制数据类型	建议上游组件	是否必选
训练数据输入	OSS	读OSS数据	是
验证数据输入	OSS	读OSS数据	是

使用限制

可视化配置组件参数

使用示例

相关文档