本文为您介绍如何通过PAI提供的文本类组件,快速构建文本分类模型。
背景信息
新闻分类是文本挖掘领域较为常见的场景。很多媒体或内容生产商对于新闻文本的分类通常采用手工标注的方式,消耗了大量的人力资源。PAI提供的智能文本挖掘算法可以实现新闻文本分类自动化(包括分词、词型转换、停用词过滤、主题挖掘及聚类等流程)。本实验首先通过PLDA算法挖掘文章的主题,然后进行主题权重聚类,从而实现新闻自动分类。
说明 本实验数据为虚构数据,仅用于学习。
数据集
本实验数据的具体字段如下。
实验的示例数据如下。
字段名 | 类型 | 描述 |
---|---|---|
category | STRING | 新闻类型,包括体育、女性、社会、军事及科技等。 |
title | STRING | 新闻标题。 |
content | STRING | 新闻内容。 |

基于文本分析算法实现新闻分类
- 进入PAI-Studio控制台。
- 登录PAI控制台。
- 在左侧导航栏,选择 。
- 在PAI可视化建模页面,单击进入机器学习。
- 构建实验。
- 运行实验并查看模型效果。