实体抽取的模型有哪些,如何选择_自然语言处理(NLP)-阿里云帮助中心

在实体抽取中，我们提供了中英文模型进行选择，中文也提供了两个不同的模型。如果您不知道选哪个，可以选择LSTM-CRF 进行尝试，兼顾了运行效率和最终结果。以下是模型的说明，您可以根据自己的具体场景，选择一个更适合的模型。

中文BiLSTM+CRF
- 同时编码字/词信息的BiLSTM+CRF 模型，模型结构简单，训练速度快，更适合样本数据量大、标签种类较多的场景。
中文Tiny-StructBERT
- StructBERT 是阿里达摩院自研的语言模型，Tiny模型是在大规模语料下蒸馏后的StructBERT 模型，最大程度上保留了StructBERT 的性能，且提升速度。该模型模型结构相对复杂，适合小样本数据集，可以收获更高的准确率。
中文StructBert
- 基于阿里自研的Struct BERT，从大量无标注语料进行预训练的模型并且蒸馏后的模型，适合标注语料不足的中文任务。针对实体重叠问题进行了优化。建议一般用户选择该类模型。
英文实体抽取模型
- 同时编码char/word 信息的BiLSTM+CRF 模型，能够快速获取较高的准确率。

模型	性能	效果	是否支持重叠实体	说明