实体抽取模型优化方法与建议-自然语言处理-阿里云

对于模型的优化，我们提供如下几个建议：

如果您的数据集不大(例如仅几百条)，建议调整遍历次数（例如调整到10或者20次），使模型得到更充分的训练。
换一个不同模型试试。不同的模型架构在不同的任务上表现可能不同，如果您发现LSTM+CRF 效果不好，不妨换成StructBERT 试试看。
对于同一个模型调整模型的不同参数。即使是同一个模型，也会因为参数设置的不同而最终得到的效果不同。模型含有各种各样的超参数，为了减轻用户的负担，我们只开放了遍历次数和学习率两个参数。在创建模型时可以进入高级设置进行设置。遍历次数一般不建议修改（除非您想快速训练完成），学习率参数有时对于模型的影响非常大，学习率的调整需要更专业的知识，建议在原有学习率基础上可以尝试在10倍以内的缩放调整。
如果模型效果不好，同时需要抽取的实体具有相对固定的上下文或者模型，您可以通过使用规则引擎中的规则和词典进行辅助抽取。
有时候上述对于模型的调整可能对于性能的提升都不是很大，这时可以考虑从数据层面来优化。实体抽取的项目目前比较适合抽取较短的字段，如人名、地名、组织、时间、数值等。典型应用场景有：- 发票抬头、日期、金额、税号识别- 简历中姓名、电话、邮箱、学校、工作信息- 合同或标书中项目名称、人员、地址、发票号码及金额等- 医疗行业病症、症状、药物及治疗方法名称- 司法行业案件当事人信息、裁判信息、案件基本信息等- 电商行业商品品牌、供货商、价格等- 金融行业债权人、债务人、利润总额、资产负载率等
如果您需要抽取的字段过长，是几句话甚至是一段话，那么使用实体抽取模型是不太合适的，可以看看平台上有没有其它的行业解决方案适合您的需求。
分析bad case，有针对性地补充数据。比如，您发现模型对于某一种类别经常分不对，很有可能是该类别数据量太少的原因，这时可以考虑补充该类别的标注数据。