句子拆分

本文为您介绍Designer提供的句子拆分算法组件。

将一段文本按标点进行句子拆分。该组件主要用于文本摘要前的预处理,将一段文本拆分成一句一行的形式。

组件配置

您可以使用以下任意一种方式,配置句子拆分组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

字段设置

标识文章ID的列名

输入标识文章ID的列名

标示文章内容的列名

输入标示文章内容的列名

句子的间隔字符集合

默认“。!?”

执行调优

核心数

默认自动分配

每个核心的内容

默认自动分配

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name SplitSentences    
    -project algo_public    
    -DinputTableName="test_input"    
    -DoutputTableName="test_output"    
    -DdocIdCol="doc_id"    
    -DdocContent="content"    
    -Dlifecycle=30

参数名称

是否必选

描述

默认值

inputTableName

输入表名

inputTablePartitions

输入表中指定参与计算的分区

输入表的所有分区

outputTableName

输出表名

docIdCol

标识文章ID的列名

docContent

标识文章内容的列名,仅可指定一列。

delimiter

句子的间隔字符集合

“。!?”

lifecycle

输入出表的生命周期

coreNum

参与计算的核心数

系统自动计算

memSizePerCore

每个核心需要的内存

系统自动计算

示例

输出表为两列,分别是doc_idsentence。

doc_id

sentence

1000894

早在2008年,上交所便发布了上市公司社会责任披露相关指引,强制要求三类公司披露社会责任报告,同时鼓励其他有条件的上市公司进行自愿披露。

1000894

统计显示,2012年,沪市上市公司共计379家披露社会责任报告,包括强制披露公司305家和自愿披露公司74家,合计占沪市全部上市公司的40%。