自学习平台使用流程

前言

欢迎使用自然语言处理服务,这里主要为您介绍如何使用NLP自学习平台,以及如何快速找到需要的帮助信息。

NLP自学习平台于2019年9月23日开始正式收费,每位主账号新用户均有1个月的免费试用期,详细定价方案请见NLP自学习平台定价。如需提高QPS或是其他任何问题,欢迎加入“阿里云NLP自学习平台用户答疑二群”(钉钉群号:44619071)。

服务使用流程

NLP自学习平台的基本使用流程如下图所示,全程可交互操作,无需工程与算法背景,预计500份以上的标注数据时,模型准确率可以达到85%以上。

使用流程

一、开通服务

您需要先开通自然语言服务才能购买及使用NLP自学习平台的各类产品。

首先要确保您已经注册了阿里云账号,如果您尚未注册,可以点击这里。

若您已经注册了阿里云账号,开通服务入口请点击【NLP自学习平台服务开通】

开通NLP自学习平台后可购买服务对应调用资源包:【NLP自学习平台调用资源包】

如果您需要模型训练,还需要购买模型包月:【NLP自学习平台模型服务】

二、新建项目

创建并管理自己的项目,目前您可以创建十三种项目类型:1、文本实体抽取;2、文本分类;3、关键短语抽取;4、情感分析;5、文本关系抽取;6、短文本匹配;7、商品评价解析;8、简历抽取;9、双句文本分类;10、招中标信息抽取;11、合同要素抽取;12、合同抽取;13、对话文本分类。

说明

项目可添加更多的项目管理员,管理员拥有这个项目下所有权限(项目、数据、模型等),通过输入阿里云账号添加;同时,也支持子账号管理项目,详见子账号授权相关问题。

image

三、数据管理

进入某一项目后,可以在数据中心中管理您的数据,有两种方式可以创建数据:

1、创建标注任务;2、上传数据集。

数据中心

3.1 创建标注任务

步骤一:上传待标注文档,添加标注人员

创建者和项目管理员默认为标注人员,同时,您也可以将标注任务分配给您创建的阿里云子账号,被分配用户通过子账号的账号密码登录本平台,即可参与数据标注。

子账号登录说明:

1、子账号登录页,登录:https://signin.aliyun.com/login.htm

2、登录后,点击进入我的项目-创建标注任务。

注意:目前仅支持UTF-8编码方式的数据文件

image

步骤二:设置待标注的题目

不同项目类型中的题目类型会有所不同,例如

文本实体抽取项目中的题目为实体名:

image文本分类项目中的题目为分类名:

image

步骤三:标注数据

完成标注任务的创建后,您可以在数据中心中,点击标注进入标注中心,进行文档的标注,每篇文档仅会被标注一次。

image

步骤四:数据质检(可选)

点击数据中心项目列表操作栏中的质检按钮,进入质检页面。

您可以通过筛选和搜索,质检已经标注好的文档,以确保良好的标注质量。

image

3.2 上传数据集

除了创建标注任务外,您也可以上传本地已标注好的训练数据,按示例文件的格式规整后,直接上传。

点击数据中心的上传已标注数据按钮,打开上传数据集窗口。

image

四、模型管理

用户可以在模型中心中一键训练模型,查看模型评估指标,并进行在线可交互测试,测试完毕后可通过API方式调用接口。

image

4.1 训练模型

点击模型中心的创建模型,进入创建模型页,输入模型基本信息,选择已标注完的数据,一键训练模型,模型训练需0.5-1小时。M-1

4.2 模型查看

您可以查看模型的相关评估指标,主要有精确率、召回率和F1值;同时,您也可以新增模型版本,进行版本管理。

重要

注意:如果训练数据在100份以内,模型效果可能欠佳,且评估指标波动较大,基本无参考意义。若需要良好稳定的模型效果,训练数据建议在500份以上。

image

4.3 模型测试

模型发布后,您可以直接在平台上进行测试,并对不准的预测结果进行纠错。

说明

注意:为方便业务使用,同一模型同时可以发布两个版本,若需发布第三个版本,请手动下线一个已发布的版本。

image