使用文本摘要训练组件训练文本生成模型-人工智能平台 PAI-阿里云

文本摘要（Text Summarization）旨在从详尽的文本内容中抽取关键信息，制作成简明的概要。通过文本摘要训练组件，您可以训练出专业的模型，来自动执行诸如文本摘要和新闻标题生成等文本生成任务。本文为您介绍文本摘要训练组件的配置方法。

使用限制

仅支持DLC计算资源。

模型结构

文本（新闻标题）摘要训练组件的模型结构采用标准的Transformer结构，包括Encoder和Decoder两部分，分别表示对文本进行编码和解码。在具体训练的过程中，模型的输入为新闻原文，目标为新闻的标题。

使用说明

您可以在文本摘要训练组件的上游接入句子拆分组件，将文本拆分成一句一行的形式。

可视化配置组件参数

您可以在Designer中，通过可视化的方式配置组件参数。

输入桩
输入桩（从左到右）
数据类型
建议上游组件
是否必选
训练数据输入
OSS
读OSS数据
是
验证数据输入
OSS
读OSS数据
是

组件参数

页签	参数	描述
字段设置	输入数据格式	输入文件的文本列。默认值为target:str:1,source:str:1。
	原文列选择	原文在输入表中对应的列名。默认值为source。
	摘要列选择	摘要在输入表中对应的列名。默认值为target。
	模型存储路径	配置OSS Bucket中的目录，用来存储文本摘要训练生成的模型文件。
参数设置	预训练模型	预训练模型名称，您可以在参数设置页签，选择您需要的模型名称。默认值为alibaba-pai/mt5-title-generation-zh。
	批次大小	训练过程中的批处理大小。INT类型，默认值为16。如果使用多机多卡，则表示每个GPU上的批处理大小。
	文本最大长度	表示系统可处理的序列整体最大长度。INT类型，范围为（1，512），默认值为512。
	迭代轮数	训练总Epoch的数量。INT类型，默认值为3。
	学习率	模型构建过程中的学习率。FLOAT类型，默认值为3e-5。
	保存模型文件步数	表示每训练多少步，对模型进行评价，并保存当前最优模型。默认值为150。
	语言	支持的语言类型： zh：中文。 en：英文。
	是否从原文中拷贝文本	输出结果是否从文本中拷贝文本片段： false：（默认值），表示不拷贝。 true：表示拷贝。
	解码器最小长度	模型输出长度大于该值，INT类型，默认值为12。
	解码器最大长度	模型输出长度小于该值，INT类型，默认值为32。
	最小不重复字段	输出结果中最小不重复字段，INT类型，默认值为2。例如：该参数配置为1，则输出结果中不会出现类似“天天”等内容。
	集束搜索数量	模型生成候选答案时的搜索空间，INT类型，默认值为5。该值越大，预测越慢。
	返回候选答案数量	模型返回的排名靠前的候选结果数量，INT类型，默认值为5。
执行调优	GPU机器类型	计算资源的GPU机型，默认值为gn5-c8g1.2xlarge。

输出桩

输出桩	数据类型	建议下游组件	是否必选
输出模型	OSS路径。该路径是您在字段设置页签的模型存储路径参数配置的OSS路径，训练生成的SavedModel格式的模型存储在该路径下。	文本摘要预测	否

使用示例

您可以使用文本摘要训练组件构建如下工作流。本示例中，您需要按照以下流程配置组件并运行工作流：

首先准备训练数据集（cn_train.txt）和验证数据集（cn_dev.txt），并上传至OSS的Bucket。本示例使用的数据集是通过制表符分隔的TXT文件。
同时支持对CSV文件的处理，您可以通过MaxCompute客户端的Tunnel命令，将数据集上传至MaxCompute。关于MaxCompute客户端的安装及配置，详情请参见使用客户端（odpscmd）连接；关于Tunnel命令的更多内容，详情请参见Tunnel命令。
使用读OSS数据-1和读OSS数据-2组件分别读取训练数据集和验证数据集。即配置读OSS数据组件的OSS数据路径参数为存放训练数据集和验证数据集的OSS路径。
将训练数据集和验证数据集接入文本摘要训练-1组件，并配置具体参数，详情请参见上文的可视化配置组件参数。
单击按钮运行工作流。当工作流运行成功后，您可以在文本摘要训练-1的模型存储路径参数配置的OSS路径下，查看输出的文本摘要模型。

输入桩（从左到右）	数据类型	建议上游组件	是否必选
训练数据输入	OSS	读OSS数据	是
验证数据输入	OSS	读OSS数据	是

使用限制

模型结构

使用说明

可视化配置组件参数

使用示例

相关文档