配置与使用文本摘要组件-人工智能平台 PAI-阿里云

文本摘要组件采用自动文摘算法，基于TextRank模型，从原文献中提取关键句子来生成一段简洁且连贯的短文，即文本摘要。该摘要能准确全面地捕捉并反映出原文的中心思想。本文为您介绍文本摘要组件的配置方法。

使用限制

支持的计算引擎为MaxCompute。

使用说明

您可以在文本摘要组件的上游接入句子拆分组件，将文本拆分成一句一行的形式。

组件配置

您可以使用以下任意一种方式，配置文本摘要组件参数。

方式一：可视化方式

在Designer工作流页面配置组件参数。

页签	参数	描述
字段设置	标识文章ID的列名	输入标识文档ID的列名。
字段设置	句子列	可指定一列。
参数设置	输出前的关键句个数	默认是3。
	句子相似度的计算方法	句子相似度计算方法： Ics_sim leveshtein_sim ssk cosine
	匹配字符串的权重	句子相似度的计算方法取值ssk时，该参数生效。默认为0.5。
	子串的长度	句子相似度的计算方法取值ssk/cosine时，该参数生效。默认为2。
	阻尼系数	默认为0.85。
	最大迭代次数	默认为100。
	收敛系数	默认为0.000001。
执行调优	核心数	默认自动分配。
执行调优	单个核心的内存	默认自动分配。

方式二：PAI命令方式

使用PAI命令方式，配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用，详情请参见SQL脚本。

PAI -name TextSummarization
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DdocIdCol="doc_id"
    -DsentenceCol="sentence"
    -DtopN=2
    -Dlifecycle=30;

参数名称	是否必选	描述	默认值
inputTableName	是	输入表名。	无
inputTablePartitions	否	输入表中指定参与计算的分区。	输入表所有分区
outputTableName	是	输出表名。	无
docIdCol	是	标识文章ID的列名。	无
sentenceCol	是	句子列，仅可指定一列。	无
topN	否	输出前几个关键句。	3
similarityType	否	句子相似度计算方法： Ics_sim leveshtein_sim ssk cosine	lcs_sim
lambda	否	匹配字符串的权重，ssk中可用。	0.5
k	否	子串的长度，ssk和cosine中可用。	2
dampingFactor	否	阻尼系数。	0.85
maxIter	否	最大迭代次数。	100
epsilon	否	收敛系数。	0.000001
lifecycle	否	输入出表的生命周期。	无
coreNum	否	参与计算的核心数。	系统自动分配
memSizePerCore	否	每个核心需要的内存。	系统自动分配

示例

准备输入表test_input，表内容示例如下。

您可以使用MaxCompute客户端创建表，并使用Tunnel命令上传数据。关于MaxCompute客户端的安装及配置请参见使用本地客户端（odpscmd）连接，关于Tunnel命令使用详情请参见Tunnel命令。

doc_id

sentence

1000897

新冠肺炎疫情发生以来，滥食野生动物的突出问题。由此给公共卫生安全带来的巨大隐患，引发社会广泛关注。全国多地公安、林业以及市场监管部门开展相关专项行动，对非法猎捕、贩卖、食用野生动物进行全链条打击，效果显著。执法部门在打击涉野生动物违法犯罪活动的过程中发现，野味消费群体庞大、盗猎利润惊人、鉴定难度大成本高等问题，成为盗猎野生动物黑色利益链条得以在地下运转的重要原因。

其中：

doc_id：文章ID列。
sentence：句子列。

使用句子拆分组件，将sentence列的文本拆分成一句一行的形式，输出表名test_output，表内容如下表所示。具体操作，请参见句子拆分。

doc_id	sentence
1000897	新冠肺炎疫情发生以来，滥食野生动物的突出问题。
1000897	由此给公共卫生安全带来的巨大隐患，引发社会广泛关注。
1000897	全国多地公安、林业以及市场监管部门开展相关专项行动，对非法猎捕、贩卖、食用野生动物进行全链条打击，效果显著。
1000897	执法部门在打击涉野生动物违法犯罪活动的过程中发现，野味消费群体庞大、盗猎利润惊人、鉴定难度大成本高等问题，成为盗猎野生动物黑色利益链条得以在地下运转的重要原因。

执行以下PAI命令，生成文本摘要。

您可以使用SQL脚本执行如下PAI命令，也可以使用ODPS SQL节点执行如下PAI命令。

PAI -name TextSummarization
    -project algo_public
    -DinputTableName="test_output"
    -DoutputTableName="test_output1"
    -DdocIdCol="doc_id"
    -DsentenceCol="sentence"
    -DtopN=2
    -Dlifecycle=30;

输出表为两列，分别是doc_id和abstract。

doc_id	abstract
1000897	新冠肺炎疫情发生以来，滥食野生动物的突出问题。全国多地公安、林业以及市场监管部门开展相关专项行动，对非法猎捕、贩卖、食用野生动物进行全链条打击，效果显著。

使用限制

使用说明

组件配置

方式一：可视化方式

方式二：PAI命令方式

示例

相关文档