实体抽取项目常见问题

实体抽取项目的标注注意事项

  1. 实体抽取项目中,需要对待标注文档中所有出现的实体予以标注。

    标注示意图

  2. 某文档中对某个实体已经有过标注了,在另一篇文档中还需要对相同实体进行标注吗?

    答:需要

  3. 被标注的实体中不能出现换行符“\n”或句号“。”,否则将不能识别,但不会影响训练。

实体抽取项目有没有更高级的规则引擎设置?

问:做实体抽取任务时,我的文档格式比较固定,需要抽取的字段有明确和固定的上下文,有没有不需要大量标注,又好又快的抽取方案?

答: 有!为了提升实体抽取模型的表现和效率,我们还开放了规则引擎模块供用户选择(如有需要,请联系我们加入白名单,钉钉群号:23142693)。在创建模型时可以配置。规则引擎的界面如下:reg1您可以通过规则配置来配置正则、词典、任意字符和模型抽出的实体的组合等“规则”,并且通过规则预览可以测试下您的规则是否生效。

规则配置示例

我有如下裁判文书,需要抽取原告和被告的姓名、性别、出生年月:

说明

原告:橙小二,女,住所地浙江省杭州市余杭区。\n\n被告:王某某,男,2019年10月1日出生,汉族。

就可以使用规则引擎来配置正则表达式,抽取出这些字段:

说明

新增规则组->实体类型选原告->规则要素选择正则表达式->值填入 (?<=原告:)([^,]+)(?=,)

reg2配置好几个规则后,单击规则预览,则可以检查刚刚配置的规则:reg3

实体抽取项目有没有常见的抽取字段供选择?

平台提供常见字段的抽取能力,例如日期、手机号码等,勾选后,您创建的模型将可同时抽取勾选字段。(由于创建模型需要标注数据,若想直接使用该功能,您可以随意标注10条数据训练一个模型,注意需在高级设置中勾选您想使用的通用字段)

  • 入口(实体抽取项目->模型中心->创建模型->进入高级设置):

    image.png