在Designer中配置句子拆分组件-人工智能平台 PAI-阿里云

本文为您介绍Designer提供的句子拆分算法组件。

将一段文本按标点进行句子拆分。该组件主要用于文本摘要前的预处理，将一段文本拆分成一句一行的形式。

组件配置

您可以使用以下任意一种方式，配置句子拆分组件参数。

方式一：可视化方式

在Designer工作流页面配置组件参数。

页签	参数	描述
字段设置	标识文章ID的列名	输入标识文章ID的列名
	标示文章内容的列名	输入标示文章内容的列名
	句子的间隔字符集合	默认“。！？”
执行调优	核心数	默认自动分配
执行调优	每个核心的内容	默认自动分配

方式二：PAI命令方式

使用PAI命令方式，配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用，详情请参见SQL脚本。

PAI -name SplitSentences    
    -project algo_public    
    -DinputTableName="test_input"    
    -DoutputTableName="test_output"    
    -DdocIdCol="doc_id"    
    -DdocContent="content"    
    -Dlifecycle=30

参数名称	是否必选	描述	默认值
inputTableName	是	输入表名	无
inputTablePartitions	否	输入表中指定参与计算的分区	输入表的所有分区
outputTableName	是	输出表名	无
docIdCol	是	标识文章ID的列名	无
docContent	是	标识文章内容的列名，仅可指定一列。	无
delimiter	否	句子的间隔字符集合	“。！？”
lifecycle	否	输入出表的生命周期	无
coreNum	否	参与计算的核心数	系统自动计算
memSizePerCore	否	每个核心需要的内存	系统自动计算

示例

输出表为两列，分别是doc_id和sentence。

doc_id	sentence
1000894	早在2008年，上交所便发布了上市公司社会责任披露相关指引，强制要求三类公司披露社会责任报告，同时鼓励其他有条件的上市公司进行自愿披露。
1000894	统计显示，2012年，沪市上市公司共计379家披露社会责任报告，包括强制披露公司305家和自愿披露公司74家，合计占沪市全部上市公司的40%。