在实体抽取中,我们提供了中英文模型进行选择,中文也提供了两个不同的模型。如果您不知道选哪个,可以选择LSTM-CRF 进行尝试,兼顾了运行效率和最终结果。以下是模型的说明,您可以根据自己的具体场景,选择一个更适合的模型。
中文BiLSTM+CRF
同时编码字/词信息的BiLSTM+CRF 模型,模型结构简单,训练速度快,更适合样本数据量大、标签种类较多的场景。
中文Tiny-StructBERT
StructBERT 是阿里达摩院自研的语言模型,Tiny模型是在大规模语料下蒸馏后的StructBERT 模型,最大程度上保留了StructBERT 的性能,且提升速度。该模型模型结构相对复杂,适合小样本数据集,可以收获更高的准确率。
中文StructBert
基于阿里自研的Struct BERT,从大量无标注语料进行预训练的模型并且蒸馏后的模型,适合标注语料不足的中文任务。针对实体重叠问题进行了优化。建议一般用户选择该类模型。
英文实体抽取模型
同时编码char/word 信息的BiLSTM+CRF 模型,能够快速获取较高的准确率。
更多维度对比
模型
性能
效果
是否支持重叠实体
说明
中文BiLSTM-CRF
很快
不支持
中文Tiny-StructBERT
很快
不支持
中文StructBert
较快
较好
支持
优先推荐使用
中文StructBert-CRF
较慢
较好
支持
适用于数据量较小场景,请设置epoch>10
中文StructBert-CRF(高性能版)【推荐】
较快
较好
不支持
适用于标签依赖较强数据
英文实体抽取
很快
不支持
文档内容是否对您有帮助?