本文为您介绍PAI-Studio提供的句子拆分算法组件。

将一段文本按标点进行句子拆分。该组件主要用于文本摘要前的预处理,将一段文本拆分成一句一行的形式。

配置组件

PAI-Studio支持通过可视化或PAI命令的方式,配置组件参数:
  • 可视化方式
    页签 参数 描述
    字段设置 标识文章ID的列名 输入标识文章ID的列名
    标示文章内容的列名 输入标示文章内容的列名
    句子的间隔字符集合 默认“。!?”
    执行调优 核心数 默认自动分配
    每个核心的内容 默认自动分配
  • PAI命令方式
    PAI -name SplitSentences    
        -project algo_public    
        -DinputTableName="test_input"    
        -DoutputTableName="test_output"    
        -DdocIdCol="doc_id"    
        -DdocContent="content"    
        -Dlifecycle=30
    参数名称 是否必选 描述 默认值
    inputTableName 输入表名
    inputTablePartitions 输入表中指定参与计算的分区 输入表的所有分区
    outputTableName 输出表名
    docIdCol 标识文章id的列名
    docContent 标示文章内容的列名,仅可指定一列。
    delimiter 句子的间隔字符集合 “。!?”
    lifecycle 输入出表的生命周期
    coreNum 参与计算的核心数 系统自动计算
    memSizePerCore 每个核心需要的内存 系统自动计算

示例

输出表为两列,分别是doc_id和sentence。
doc_id sentence
1000894 早在2008年,上交所便发布了上市公司社会责任披露相关指引,强制要求三类公司披露社会责任报告,同时鼓励其他有条件的上市公司进行自愿披露。
1000894 统计显示,2012年,沪市上市公司共计379家披露社会责任报告,包括强制披露公司305家和自愿披露公司74家,合计占沪市全部上市公司的40%。