文档

模型说明

更新时间:

文本关系抽取-模型说明。

在文本关系抽取中,我们提供了多种模型进行选择。如果您不知道选哪个,可以选择“关系抽取PCNN”进行尝试,兼顾了运行效率和最终结果。以下是模型的说明,您可以根据自己的具体场景,选择一个更适合的模型。

  • 关系抽取PCNN

    • 基于PCNN (Piecewise Convolutional Neural Networks) 分类模型,加入noise converter抗噪模块进行关系分类模型训练,有一定的抗噪能力。相对于基于BERT而言,训练和预测都更快,适用于对效果和训练时间/预测时间要求比较均衡的主要内容是中文的场景。

  • 关系抽取Bert

    • 基于BERT从大量无标注语料进行预训练的模型,加入融合实体对信息的模块进行关系分类模型训练。适用于标注数据比较干净,对效果要求较高,对训练时间/预测时间要求不是很高的主要内容是中文的场景。

  • 关系抽取BertNoise

    • 基于BERT从大量无标注语料进行预训练的模型,加入融合实体对信息的模块以及抗噪模块进行关系分类模型训练。适用于标注数据不是很干净(带有一些标错或者噪声数据),对效果要求较高,对训练时间/预测时间要求不是很高的主要内容是中文的场景。

  • 关系抽取StrcutBERT-split

    • 基于达摩院自研alicemind深度语言模型体系的StructBERT模型,采用实体抽取-关系分类两阶段独立训练策略,耗时较长。

  • 关系抽取StrcutBERT-cascade【推荐优先试用】

    • 基于达摩院自研alicemind深度语言模型体系的StructBERT模型,采用实体关系联合抽取策略,耗时更短,综合性能更好,适用于实体标注比较完备的数据。

  • UIE小样本实体抽取模型

    • 基于Deberta模型在千万级监督和远监督数据上预训练得到,除关系抽取外,也支持任意多元组集合的抽取,如事件抽取、观点抽取等;可以较好地处理零样本场景下推理(不需要训练数据,直接预测)和小样本场景下fine-tune(经过少量样本,如1,5,10,100条数据训练后再应用预测),同时在全样本场景下fine-tune也具备较明显优势,推理速度较快。