文档

相似标签自动归类

更新时间:

本文通过PAI提供的文本分析组件,实现简单的商品标签自动归类系统。

背景信息

通常每件商品的描述会包含很多维度标签。例如,一双鞋子的商品描述可能是“少女英伦风系带马丁靴女磨砂真皮厚底休闲短靴”。一个包的商品描述可能是“天天特价包包2016新款秋冬斜挎包韩版手提包流苏贝壳包女包单肩包”。这些维度可以包含时间、产地及款式等,如何按照特定维度将数以万计的商品进行归类是电商平台的难题之一,其中最大的挑战是如何从商品描述中抽取维度标签。PAI提供的文本分析组件可以自动学习标签词语,从而实现标签自动归类。

前提条件

准备数据集

本工作流数据是整理的一份2016年双十一购物清单,共两千多条商品描述,每一行表示一件商品的标签聚合。如下图所示。标签自动归类数据集

您需要前往DataWorks数据开发模块,新建一个只包含一个列名为content的表,并将上述准备好的数据上传至该表中。具体操作,请参见建表并上传数据

相似标签自动归类

  1. 进入Designer页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  2. 新建自定义工作流,并进入工作流页面,详情请参见新建自定义工作流

  3. 构建并运行工作流。

    1. 在左侧组件列表,将源/目标下的读数据表组件拖入画布中,并重命名为shopping_data-1

    2. 在左侧组件列表,将自然语言处理 > 基础NLP下的Split Word词频统计Word2Vec组件拖入画布中。

    3. 在左侧组件列表,将数据预处理下的增加序号列类型转换组件拖入画布中。

    4. 在左侧组件列表,将机器学习 > 聚类下的K均值聚类组件拖入画布中。

    5. 在左侧组件列表,将自定义脚本下的SQL脚本组件拖入画布中。

    6. 将以上组件拼接为如下工作流,参照下表配置组件的关键参数,并运行组件。

    7. 相似标签自动归类实验

      序号

      描述

      上传shopping_data数据,并通过分词组件对数据进行分词,具体操作步骤如下:

      1. 在画布中单击shopping_data-1组件,并在右侧表选择页签配置已准备好的表名。

      2. 在画布中单击Split Word-1组件,并在右侧字段设置页签,选择列名为content

      3. 首先单击shopping_data-1组件,在快捷菜单,单击执行该节点。待该组件执行完成后,再以相同的方式执行Split Word-1组件。

      增加序号列。由于上传的数据只有一个字段,需要通过增加序号列为每个数据增加主键。

      首先单击增加序号列-1组件,在快捷菜单,单击执行该节点。待该组件执行完成后,再以相同的方式执行类型转换-1组件。

      处理后的结果示例如下图所示。序列化结果

      统计词频,展示每个商品中出现的各种词语数量。

      1. 在画布中单击词频统计-1组件,在右侧字段设置页签,分别设置选择文档ID列append_id选择文档内容列content

      2. 单击词频统计-1组件,在快捷菜单,单击执行该节点

      使用Word2Vec组件将每个词语按照意义在向量维度展开,生成词向量。词向量的含义包括:

      • 向量距离近的两个词,其真实含义比较相近。

      • 不同词之间的距离差值具有一定意义。

      经过Word2Vec组件将每个词映射到百维空间上。

      1. 在画布中单击Word2Vec-1组件,在右侧字段设置页签,设置选择单词列word,在参数设置页签,选中采用hierarchical softmax

      2. 单击Word2Vec-1组件,在快捷菜单,单击执行该节点

      结果示例如下图所示。word2vector算法结果

      词向量聚类。使用K均值聚类算法,在已经产生的词向量基础上,计算词向量的距离,并按照意义将标签词自动归类。

      1. 在画布中单击K均值聚类-1组件,在右侧字段设置页签,选择特征列f0附加列word

        说明

        该组件在运行时,其上游输入数据表的行数必须大于或等于该组件参数中设定的聚类数目。

      2. 单击K均值聚类-1组件,在快捷菜单,单击执行该节点

      其结果展示每个词所属的聚类簇,结果示例如下图所示。K均值聚类结果

      结果验证。通过SQL脚本-1组件,在聚类簇中随意挑选一个类别,判断是否对同一类别的标签进行了自动归类。本工作流选用第10组聚类簇,在画布中单击SQL脚本-1组件,在右侧参数设置页签,配置SQL脚本select * from ${t1} where cluster_index=10

      结果示例如下图所示。验证结果

      上述结果中,系统自动将与地理相关的标签进行了归类,但是混入了坚果等明显与类别不符的标签,可能是训练样本数量不足导致的。如果训练样本足够大,则标签聚类结果会非常准确。

相关文档

关于算法组件更详细的内容介绍,请参见: