全部产品
云市场
云游戏

模型说明

更新时间:2020-04-26 15:13:36

在文本分类中,我们提供了多种模型进行选择,如果您不知道选哪个,可以选择CNN 进行尝试,兼顾了运行效率和最终结果。以下是模型的说明,您可以根据自己的具体场景,选择一个更适合的模型。

  • FastText 分类模型
    速度快,计算资源要求低,适合样本数量大、类别标签多,适合不需要太多语义理解的任务。

  • CNN 分类模型
    相比FastText 模型,CNN 适用复杂度更高的场景,可捕捉更多、更广、更细致的文本特征,适合需要一定语义理解的任务。对比FastText 通常效果要好一些,但训练时间也会更长。

  • Self-Attention 分类模型
    相比FastText 模型,Self-Attention 适应复杂度更高的场景,可捕捉更多、更广、更细致的特征;跟CNN 相比,能更好地捕捉文本里的长期依赖。适合需要一定语义理解的任务。训练时间跟效果跟 CNN 类似。

  • 长文本分类融合模型
    阿里巴巴达摩院自研的融合了CNN,FastText,Self-Attention等机制的集成学习模型,适用各类文本分类场景,包括篇幅较长的文体(如新闻、小说等),训练时间较长

  • 短文本分类融合模型
    阿里巴巴达摩院自研的针对短文本分类的模型,适用于比如短信、微博、评论等文字字数小于150 字的场景,底层集成了朴素贝叶斯、FastText、支持向量机、随机森林等传统机器学习模型,优点是训练速度快

  • BERT 小样本分类
    阿里巴巴达摩院自研的针对小样本文本分类的模型,主要原理为使用 BERT模型 从大量无标注语料进行预训练。适用于标注语料有限的场景,训练和预测时间较长