前言
欢迎使用自然语言处理服务,这里主要为您介绍如何使用NLP自学习平台,以及如何快速找到需要的帮助信息。
NLP自学习平台于2019年9月23日开始正式收费,每位主账号新用户均有1个月的免费试用期,详细定价方案请见NLP自学习平台定价。如需提高QPS或是其他任何问题,欢迎加入“阿里云NLP自学习平台用户答疑二群”(钉钉群号:44619071)。
服务使用流程
NLP自学习平台的基本使用流程如下图所示,全程可交互操作,无需工程与算法背景,预计500份以上的标注数据时,模型准确率可以达到85%以上。
一、开通服务
您需要先开通自然语言服务才能购买及使用NLP自学习平台的各类产品。
首先要确保您已经注册了阿里云账号,如果您尚未注册,可以点击这里。
若您已经注册了阿里云账号,开通服务入口请点击【NLP自学习平台服务开通】
开通NLP自学习平台后可购买服务对应调用资源包:【NLP自学习平台调用资源包】
如果您需要模型训练,还需要购买模型包月:【NLP自学习平台模型服务】
二、新建项目
创建并管理自己的项目,目前您可以创建十三种项目类型:1、文本实体抽取;2、文本分类;3、关键短语抽取;4、情感分析;5、文本关系抽取;6、短文本匹配;7、商品评价解析;8、简历抽取;9、双句文本分类;10、招中标信息抽取;11、合同要素抽取;12、合同抽取;13、对话文本分类。
项目可添加更多的项目管理员,管理员拥有这个项目下所有权限(项目、数据、模型等),通过输入阿里云账号添加;同时,也支持子账号管理项目,详见子账号授权相关问题。
三、数据管理
进入某一项目后,可以在数据中心中管理您的数据,有两种方式可以创建数据:
1、创建标注任务;2、上传数据集。
3.1 创建标注任务
步骤一:上传待标注文档,添加标注人员
创建者和项目管理员默认为标注人员,同时,您也可以将标注任务分配给您创建的阿里云子账号,被分配用户通过子账号的账号密码登录本平台,即可参与数据标注。
子账号登录说明:
1、子账号登录页,登录:https://signin.aliyun.com/login.htm
2、登录后,点击进入我的项目-创建标注任务。
注意:目前仅支持UTF-8编码方式的数据文件
步骤二:设置待标注的题目
不同项目类型中的题目类型会有所不同,例如
文本实体抽取项目中的题目为实体名:
文本分类项目中的题目为分类名:
步骤三:标注数据
完成标注任务的创建后,您可以在数据中心中,点击标注进入标注中心,进行文档的标注,每篇文档仅会被标注一次。
步骤四:数据质检(可选)
点击数据中心项目列表操作栏中的质检按钮,进入质检页面。
您可以通过筛选和搜索,质检已经标注好的文档,以确保良好的标注质量。
3.2 上传数据集
除了创建标注任务外,您也可以上传本地已标注好的训练数据,按示例文件的格式规整后,直接上传。
点击数据中心的上传已标注数据按钮,打开上传数据集窗口。
四、模型管理
用户可以在模型中心中一键训练模型,查看模型评估指标,并进行在线可交互测试,测试完毕后可通过API方式调用接口。
4.1 训练模型
点击模型中心的创建模型,进入创建模型页,输入模型基本信息,选择已标注完的数据,一键训练模型,模型训练需0.5-1小时。
4.2 模型查看
您可以查看模型的相关评估指标,主要有精确率、召回率和F1值;同时,您也可以新增模型版本,进行版本管理。
注意:如果训练数据在100份以内,模型效果可能欠佳,且评估指标波动较大,基本无参考意义。若需要良好稳定的模型效果,训练数据建议在500份以上。
4.3 模型测试
模型发布后,您可以直接在平台上进行测试,并对不准的预测结果进行纠错。
注意:为方便业务使用,同一模型同时可以发布两个版本,若需发布第三个版本,请手动下线一个已发布的版本。