全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 智能硬件
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 更多
阿里云机器学习

新闻分类案例

更新时间:2018-05-28 15:48:23

本文数据为虚构,仅供实验。

本实验拟在介绍文本类组件。如果您有相关的需求,想要提高最终的效果,请联系我们。我们为您提供完整的解决方案和商业合作。

背景

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文通过智能的文本挖掘算法对新闻文本进行分类。无需任何人肉打标,完全由机器智能化实现。

本文通过PLDA算法挖掘文章的主题,通过主题权重的聚类,实现新闻自动分类。包括了分词、词型转换、停用词过滤、主题挖掘、聚类等流程。

数据集介绍

数据截图如下图所示。

具体字段如下:

字段名 含义 类型 描述
category 新闻类型 string 体育、女性、社会、军事、科技等
title 标题 string 新闻标题
content 内容 string 新闻内容

数据探索流程

实验流程图如下:

实验大致分为以下五个步骤:

  • 1:增加序号列
  • 2:停用词过滤
  • 3:分词及词频统计
  • 4:文本主题挖掘
  • 5:结果分析和评估

1. 增加序号列

本实验的数据源是以单个新闻为单元,需要增加ID列来作为每篇新闻的唯一标识,方便下面算法的计算。

2. 分词及词频统计

这两步都是文本挖掘领域最常规的做法。

首先使用分词组件对content字段(新闻内容)进行分词。去除过滤词之后(过滤词一般是标点符号及助语),再对词频进行统计。结果如下图所示。

3. 停用词过滤

停用词过滤组件用于过滤输入的停用词词库,一般过滤标点符号以及对文章影响较小的助语等。

4. 文本主题挖掘

  1. 使用PLDA文本挖掘组件需要先将文本转换成三元形式(文本转数字),结果如下图所示。

    • append_id 是每篇新闻的唯一标识。
    • key_value 字段中冒号前面的数字表示的是单词抽象成的数字标识,冒号后面是对应的单词出现的频率。
  2. 数据进入PLDA算法。

    PLDA算法又叫主题模型,算法可以定位代表每篇文章的主题的词语。本次试验设置了50个主题,PLDA有六个输出桩,第五个输出桩输出结果展示的是每篇文章对应的每个主题的概率,如下图所示。

5. 结果分析和评估

上面的步骤将文章从主题的维度表示成了一个向量。

下面就可以通过向量的距离实现聚类,从而实现文章分类。K均值聚类组件的分类结果如下图所示。

  • cluster_index 表示的是每一类的名称。
  • 找到第0类,一共有 docid 为115,292,248,166四篇文章。

通过过滤与映射组件查询115,292,248,166四篇文章。结果如下图所示。

实验效果并不十分理想,上图中将一篇财经、一篇科技的新闻跟两个体育类新闻分到了一起。

主要原因如下:

  • 没有进行细节的调优。
  • 没有对数据进行特征工程处理。
  • 数据量太小。
本文导读目录