文档

模型优化

更新时间:

对于模型的优化,我们提供如下几个建议:

  1. 如果您的数据集不大(例如仅几百条),建议调整遍历次数(例如调整到10或者20次),使模型得到更充分的训练。

  2. 换一个不同模型试试。不同的模型架构在不同的任务上表现可能不同,如果您发现LSTM+CRF 效果不好,不妨换成StructBERT 试试看。

  3. 对于同一个模型调整模型的不同参数。即使是同一个模型,也会因为参数设置的不同而最终得到的效果不同。模型含有各种各样的超参数,为了减轻用户的负担,我们只开放了遍历次数和学习率两个参数。在创建模型时可以进入高级设置进行设置。遍历次数一般不建议修改(除非您想快速训练完成),学习率参数有时对于模型的影响非常大,学习率的调整需要更专业的知识,建议在原有学习率基础上可以尝试在10倍以内的缩放调整。

  4. 如果模型效果不好,同时需要抽取的实体具有相对固定的上下文或者模型,您可以通过使用规则引擎中的规则和词典进行辅助抽取。

  5. 有时候上述对于模型的调整可能对于性能的提升都不是很大,这时可以考虑从数据层面来优化。实体抽取的项目目前比较适合抽取较短的字段,如人名、地名、组织、时间、数值等。典型应用场景有:- 发票抬头、日期、金额、税号识别- 简历中姓名、电话、邮箱、学校、工作信息- 合同或标书中项目名称、人员、地址、发票号码及金额等- 医疗行业病症、症状、药物及治疗方法名称- 司法行业案件当事人信息、裁判信息、案件基本信息等- 电商行业商品品牌、供货商、价格等- 金融行业债权人、债务人、利润总额、资产负载率等

  6. 如果您需要抽取的字段过长,是几句话甚至是一段话,那么使用实体抽取模型是不太合适的,可以看看平台上有没有其它的行业解决方案适合您的需求。

  7. 分析bad case,有针对性地补充数据。比如,您发现模型对于某一种类别经常分不对,很有可能是该类别数据量太少的原因,这时可以考虑补充该类别的标注数据。

  • 本页导读 (0)
文档反馈