实体抽取项目的标注注意事项
实体抽取项目中,需要对待标注文档中所有出现的实体予以标注。
某文档中对某个实体已经有过标注了,在另一篇文档中还需要对相同实体进行标注吗?
答:需要
被标注的实体中不能出现换行符“\n”或句号“。”,否则将不能识别,但不会影响训练。
实体抽取项目有没有更高级的规则引擎设置?
问:做实体抽取任务时,我的文档格式比较固定,需要抽取的字段有明确和固定的上下文,有没有不需要大量标注,又好又快的抽取方案?
答: 有!为了提升实体抽取模型的表现和效率,我们还开放了规则引擎模块供用户选择(如有需要,请联系我们加入白名单,钉钉群号:23142693)。在创建模型时可以配置。规则引擎的界面如下:您可以通过规则配置来配置正则、词典、任意字符和模型抽出的实体的组合等“规则”,并且通过规则预览可以测试下您的规则是否生效。
规则配置示例:
我有如下裁判文书,需要抽取原告和被告的姓名、性别、出生年月:
说明
原告:橙小二,女,住所地浙江省杭州市余杭区。\n\n被告:王某某,男,2019年10月1日出生,汉族。
就可以使用规则引擎来配置正则表达式,抽取出这些字段:
说明
新增规则组->实体类型选原告->规则要素选择正则表达式->值填入 (?<=原告:)([^,]+)(?=,)
配置好几个规则后,单击规则预览,则可以检查刚刚配置的规则:
实体抽取项目有没有常见的抽取字段供选择?
平台提供常见字段的抽取能力,例如日期、手机号码等,勾选后,您创建的模型将可同时抽取勾选字段。(由于创建模型需要标注数据,若想直接使用该功能,您可以随意标注10条数据训练一个模型,注意需在高级设置中勾选您想使用的通用字段)
入口(实体抽取项目->模型中心->创建模型->进入高级设置):
文档内容是否对您有帮助?