模型说明

在实体抽取中,我们提供了中英文模型进行选择,中文也提供了两个不同的模型。如果您不知道选哪个,可以选择LSTM-CRF 进行尝试,兼顾了运行效率和最终结果。以下是模型的说明,您可以根据自己的具体场景,选择一个更适合的模型。

  • 中文BiLSTM+CRF

    • 同时编码字/词信息的BiLSTM+CRF 模型,模型结构简单,训练速度快,更适合样本数据量大、标签种类较多的场景。

  • 中文Tiny-StructBERT

    • StructBERT 是阿里达摩院自研的语言模型,Tiny模型是在大规模语料下蒸馏后的StructBERT 模型,最大程度上保留了StructBERT 的性能,且提升速度。该模型模型结构相对复杂,适合小样本数据集,可以收获更高的准确率。

  • 中文StructBert

    • 基于阿里自研的Struct BERT,从大量无标注语料进行预训练的模型并且蒸馏后的模型,适合标注语料不足的中文任务。针对实体重叠问题进行了优化。建议一般用户选择该类模型

  • 英文实体抽取模型

    • 同时编码char/word 信息的BiLSTM+CRF 模型,能够快速获取较高的准确率。

  • 更多维度对比

  • 模型

    性能

    效果

    是否支持重叠实体

    说明

    中文BiLSTM-CRF

    很快

    不支持

    中文Tiny-StructBERT

    很快

    不支持

    中文StructBert

    较快

    较好

    支持

    优先推荐使用

    中文StructBert-CRF

    较慢

    较好

    支持

    适用于数据量较小场景,请设置epoch>10

    中文StructBert-CRF(高性能版)【推荐】

    较快

    较好

    不支持

    适用于标签依赖较强数据

    英文实体抽取

    很快

    不支持