本文为您介绍PAI-Studio提供的文本摘要算法组件。

文本摘要是文献中简单连贯的短文,能够全面准确地反映该文献的中心思想。自动文摘利用计算机自动从原始文献中提取摘要内容。

本算法基于TextRank,通过提取文档中已存在的句子形成摘要。详情请参见TextRank: Bringing Order into Texts

配置组件

PAI-Studio支持通过可视化或PAI命令的方式,配置组件参数:
  • 可视化方式
    页签 参数 描述
    字段设置 标识文章ID的列名 输入标识文档ID的列名。
    句子列 可指定一列。
    参数设置 输出前的关键句个数 默认是3。
    句子相似度的计算方法 句子相似度计算方法:
    • Ics_sim
    • leveshtein_sim
    • ssk
    • cosine
    匹配字符串的权重 句子相似度的计算方法取值ssk时,该参数生效。默认为0.5。
    子串的长度 句子相似度的计算方法取值ssk/cosine时,该参数生效。默认为2。
    阻尼系数 默认为0.85。
    最大迭代次数 默认为100。
    收敛系数 默认为0.000001。
    执行调优 核心数 默认自动分配。
    单个核心的内存 默认自动分配。
  • PAI命令方式
    PAI -name TextSummarization    
        -project algo_public    
        –DinputTableName="test_input"    
        -DoutputTableName="test_output"    
        -DdocIdCol="doc_id"    
        -DsentenceCol="sentence"    
        -DtopN=2    
        -Dlifecycle=30;
    参数名称 是否必选 描述 默认值
    inputTableName 输入表名
    inputTablePartitions 输入表中指定参与计算的分区 输入表所有分区
    outputTableName 输出表名
    docIdCol 标识文章id的列名
    sentenceCol 句子列,仅可指定一列。
    topN 输出前几个关键句 3
    similarityType 句子相似度计算方法:
    • Ics_sim
    • leveshtein_sim
    • ssk
    • cosine
    lcs_sim
    lambda 匹配字符串的权重,ssk中可用。 0.5
    k 子串的长度,sskcosine中可用。 2
    dampingFactor 阻尼系数 0.85
    maxIter 最大迭代次数 100
    epsilon 收敛系数 0.000001
    lifecycle 输入出表的生命周期
    coreNum 参与计算的核心数 系统自动分配
    memSizePerCore 每个核心需要的内存 系统自动分配

示例

输出表为两列,分别是doc_id和abstract。
doc_id abstract
1000894 早在2008年,上交所便发布了上市公司社会责任披露相关指引,强制要求三类公司披露社会责任报告,同时鼓励其他有条件的上市公司进行自愿披露。统计显示,2012年,沪市上市公司共计379家披露社会责任报告,包括强制披露公司305家和自愿披露公司74家,合计占沪市全部上市公司的40%。胡汝银表示,下一步上交所将探索扩大社会责任报告的披露范围,修订细化有关社会责任报告披露的指引,并鼓励更多的机构推进社会责任产品创新。