文档

文本摘要

更新时间:

文本摘要组件采用自动文摘算法,基于TextRank模型,从原文献中提取关键句子来生成一段简洁且连贯的短文,即文本摘要。该摘要能准确全面地捕捉并反映出原文的中心思想。本文为您介绍文本摘要组件的配置方法。

使用限制

支持的计算引擎为MaxCompute。

使用说明

您可以在文本摘要组件的上游接入句子拆分组件,将文本拆分成一句一行的形式。

组件配置

您可以使用以下任意一种方式,配置文本摘要组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

字段设置

标识文章ID的列名

输入标识文档ID的列名。

句子列

可指定一列。

参数设置

输出前的关键句个数

默认是3。

句子相似度的计算方法

句子相似度计算方法:

  • Ics_sim

  • leveshtein_sim

  • ssk

  • cosine

匹配字符串的权重

句子相似度的计算方法取值ssk时,该参数生效。默认为0.5。

子串的长度

句子相似度的计算方法取值ssk/cosine时,该参数生效。默认为2。

阻尼系数

默认为0.85。

最大迭代次数

默认为100。

收敛系数

默认为0.000001。

执行调优

核心数

默认自动分配。

单个核心的内存

默认自动分配。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name TextSummarization
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DdocIdCol="doc_id"
    -DsentenceCol="sentence"
    -DtopN=2
    -Dlifecycle=30;

参数名称

是否必选

描述

默认值

inputTableName

输入表名。

inputTablePartitions

输入表中指定参与计算的分区。

输入表所有分区

outputTableName

输出表名。

docIdCol

标识文章ID的列名。

sentenceCol

句子列,仅可指定一列。

topN

输出前几个关键句。

3

similarityType

句子相似度计算方法:

  • Ics_sim

  • leveshtein_sim

  • ssk

  • cosine

lcs_sim

lambda

匹配字符串的权重,ssk中可用。

0.5

k

子串的长度,sskcosine中可用。

2

dampingFactor

阻尼系数。

0.85

maxIter

最大迭代次数。

100

epsilon

收敛系数。

0.000001

lifecycle

输入出表的生命周期。

coreNum

参与计算的核心数。

系统自动分配

memSizePerCore

每个核心需要的内存。

系统自动分配

示例

  1. 准备输入表test_input,表内容示例如下。

    您可以使用MaxCompute客户端创建表,并使用Tunnel命令上传数据。关于MaxCompute客户端的安装及配置请参见使用本地客户端(odpscmd)连接,关于Tunnel命令使用详情请参见Tunnel命令

    doc_id

    sentence

    1000897

    新冠肺炎疫情发生以来,滥食野生动物的突出问题。由此给公共卫生安全带来的巨大隐患,引发社会广泛关注。全国多地公安、林业以及市场监管部门开展相关专项行动,对非法猎捕、贩卖、食用野生动物进行全链条打击,效果显著。执法部门在打击涉野生动物违法犯罪活动的过程中发现,野味消费群体庞大、盗猎利润惊人、鉴定难度大成本高等问题,成为盗猎野生动物黑色利益链条得以在地下运转的重要原因。

    其中:

    • doc_id:文章ID列。

    • sentence:句子列。

  2. 使用句子拆分组件,将sentence列的文本拆分成一句一行的形式,输出表名test_output,表内容如下表所示。具体操作,请参见句子拆分

    doc_id

    sentence

    1000897

    新冠肺炎疫情发生以来,滥食野生动物的突出问题。

    1000897

    由此给公共卫生安全带来的巨大隐患,引发社会广泛关注。

    1000897

    全国多地公安、林业以及市场监管部门开展相关专项行动,对非法猎捕、贩卖、食用野生动物进行全链条打击,效果显著。

    1000897

    执法部门在打击涉野生动物违法犯罪活动的过程中发现,野味消费群体庞大、盗猎利润惊人、鉴定难度大成本高等问题,成为盗猎野生动物黑色利益链条得以在地下运转的重要原因。

  3. 执行以下PAI命令,生成文本摘要。

    您可以使用SQL脚本执行如下PAI命令,也可以使用ODPS SQL节点执行如下PAI命令。

    PAI -name TextSummarization
        -project algo_public
        -DinputTableName="test_output"
        -DoutputTableName="test_output1"
        -DdocIdCol="doc_id"
        -DsentenceCol="sentence"
        -DtopN=2
        -Dlifecycle=30;

    输出表为两列,分别是doc_idabstract

    doc_id

    abstract

    1000897

    新冠肺炎疫情发生以来,滥食野生动物的突出问题。 全国多地公安、林业以及市场监管部门开展相关专项行动,对非法猎捕、贩卖、食用野生动物进行全链条打击,效果显著。

相关文档

  • 使用句子拆分组件对数据进行预处理,将一段文本拆分成一句一行的形式。具体操作,请参见句子拆分

  • 关于Designer更详细的内容介绍,请参见Designer概述