句子拆分

更新时间:2024-02-27 09:58:02

本文为您介绍Designer提供的句子拆分算法组件。

将一段文本按标点进行句子拆分。该组件主要用于文本摘要前的预处理,将一段文本拆分成一句一行的形式。

组件配置

您可以使用以下任意一种方式,配置句子拆分组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

页签

参数

描述

字段设置

标识文章ID的列名

输入标识文章ID的列名

标示文章内容的列名

输入标示文章内容的列名

句子的间隔字符集合

默认“。!?”

执行调优

核心数

默认自动分配

每个核心的内容

默认自动分配

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name SplitSentences    
    -project algo_public    
    -DinputTableName="test_input"    
    -DoutputTableName="test_output"    
    -DdocIdCol="doc_id"    
    -DdocContent="content"    
    -Dlifecycle=30

参数名称

是否必选

描述

默认值

参数名称

是否必选

描述

默认值

inputTableName

输入表名

inputTablePartitions

输入表中指定参与计算的分区

输入表的所有分区

outputTableName

输出表名

docIdCol

标识文章ID的列名

docContent

标识文章内容的列名,仅可指定一列。

delimiter

句子的间隔字符集合

“。!?”

lifecycle

输入出表的生命周期

coreNum

参与计算的核心数

系统自动计算

memSizePerCore

每个核心需要的内存

系统自动计算

示例

输出表为两列,分别是doc_idsentence。

doc_id

sentence

doc_id

sentence

1000894

早在2008年,上交所便发布了上市公司社会责任披露相关指引,强制要求三类公司披露社会责任报告,同时鼓励其他有条件的上市公司进行自愿披露。

1000894

统计显示,2012年,沪市上市公司共计379家披露社会责任报告,包括强制披露公司305家和自愿披露公司74家,合计占沪市全部上市公司的40%。

  • 本页导读 (1)
  • 组件配置
  • 方式一:可视化方式
  • 方式二:PAI命令方式
  • 示例

点击开启售前

在线咨询服务