文本摘要(Text Summarization)旨在从详尽的文本内容中抽取关键信息,制作成简明的概要。通过文本摘要训练组件,您可以训练出专业的模型,来自动执行诸如文本摘要和新闻标题生成等文本生成任务。本文为您介绍文本摘要训练组件的配置方法。
使用限制
仅支持DLC计算资源。
模型结构
文本(新闻标题)摘要训练组件的模型结构采用标准的Transformer结构,包括Encoder和Decoder两部分,分别表示对文本进行编码和解码。在具体训练的过程中,模型的输入为新闻原文,目标为新闻的标题。
使用说明
您可以在文本摘要训练组件的上游接入句子拆分组件,将文本拆分成一句一行的形式。
可视化配置组件参数
您可以在Designer中,通过可视化的方式配置组件参数。
输入桩
输入桩(从左到右)
数据类型
建议上游组件
是否必选
训练数据
OSS
是
验证数据
OSS
是
组件参数
页签
参数
描述
字段设置
输入数据格式
输入文件的文本列。默认值为title_tokens:str:1,content_tokens:str:1。
原文列选择
原文在输入表中对应的列名。默认值为content_tokens。
摘要列选择
摘要在输入表中对应的列名。默认值为title_tokens。
模型存储路径
配置OSS Bucket中的目录,用来存储文本摘要训练生成的模型文件。
参数设置
预训练模型
预训练模型名称,您可以在参数设置页签,选择您需要的模型名称。默认值为alibaba-pai/mt5-title-generation-zh。
批大小
训练过程中的批处理大小。INT类型,默认值为8。
如果使用多机多卡,则表示每个GPU上的批处理大小。
文本最大长度
表示系统可处理的序列整体最大长度。INT类型,范围为(1,512),默认值为512。
训练轮数
训练总Epoch的数量。INT类型,默认值为3。
学习率
模型构建过程中的学习率。FLOAT类型,默认值为3e~5。
保存模型文件步数
表示每训练多少步,对模型进行评价,并保存当前最优模型。默认值为150。
语言
支持的语言类型:
zh:中文。
en:英文。
是否从原文中拷贝文本
输出结果是否从文本中拷贝文本片段:
false:(默认值),表示不拷贝。
true:表示拷贝。
解码器最小长度
模型输出长度大于该值,INT类型,默认值为12。
解码器最大长度
模型输出长度小于该值,INT类型,默认值为32。
最小不重复字段
输出结果中最小不重复字段,INT类型,默认值为2。例如:该参数配置为1,则输出结果中不会出现类似“天天”等内容。
集束搜索数量
模型生成候选答案时的搜索空间,INT类型,默认值为5。该值越大,预测越慢。
返回候选答案数量
模型返回的排名靠前的候选结果数量,INT类型,默认值为5。
执行调优
GPU机型类型
计算资源的GPU机型,默认值为gn5-c8g1.2xlarge。
输出桩
输出桩
数据类型
建议下游组件
是否必选
输出模型
OSS路径。该路径是您在字段设置页签的模型存储路径参数配置的OSS路径,训练生成的SavedModel格式的模型存储在该路径下。
否
使用示例
您可以使用文本摘要训练组件构建如下工作流。本示例中,您需要按照以下流程配置组件并运行工作流:
首先准备训练数据集(cn_train.txt)和验证数据集(cn_dev.txt),并上传至OSS的Bucket。本示例使用的数据集是通过制表符分隔的TXT文件。
同时支持对CSV文件的处理,您可以通过MaxCompute客户端的Tunnel命令,将数据集上传至MaxCompute。关于MaxCompute客户端的安装及配置,详情请参见使用客户端(odpscmd)连接;关于Tunnel命令的更多内容,详情请参见Tunnel命令。
使用读OSS数据-1和读OSS数据-2组件分别读取训练数据集和验证数据集。即配置读OSS数据组件的OSS数据路径参数为存放训练数据集和验证数据集的OSS路径。
将训练数据集和验证数据集接入文本摘要训练-1组件,并配置具体参数,详情请参见上文的可视化配置组件参数。
单击按钮运行工作流。当工作流运行成功后,您可以在文本摘要训练-1的模型存储路径参数配置的OSS路径下,查看输出的文本摘要模型。