文档

简历抽取

服务开通与资源包购买

预训练模型使用前,请确认是否已经开通了NLP自学习平台服务,开通后可购买资源包。

NLP自学习平台:开通地址

自学习平台资源包:购买地址

一、创建项目

在NLP自学习平台中【点击进入自学习管控台】,支持多个基本项目和应用算法。在本教程中,我们将引导您掌握通过自学习平台创建一个“简历抽取”的项目。

进入“我的项目”或“创建项目”,选择应用算法中的“简历抽取”点击“创建”。

image

在接下来的页面填写项目名称和项目描述即可。

image

二、数据准备

进入“我的项目”后,可以在数据中心中管理您的数据,有两种方式可以创建数据:

1、创建标注任务;2、上传数据集。

2.1创建标注任务

步骤一:上传待标注文档,添加标注人员

说明

创建者和项目管理员默认为标注人员,同时,您也可以将标注任务分配给您创建的阿里云子账号,被分配用户通过子账号的账号密码登录本平台,即可参与数据标注。

子账号登录说明:

1、子账号登录页,登录:https://signin.aliyun.com/login.htm

2、登录后,点击进入我的项目-创建标注任务。

注意:目前仅支持UTF-8编码方式的数据文件

image

步骤二:添加自定义标签

说明

简历抽取内置27个中文常见字段和10个英文常见字段,模型训练的数据标注成本低至原本的20%以下。

选择本次标注需要优化的预置字段,并逐个添加需要标注的子那个定义标签字段名;

image

步骤三:标注数据

image

2.2 上传数据集

由于模型需要通过标注数据来从中学习规律,因此我们首先要准备好一个标注数据集。

对于用户已经积累了一部分标注数据的情况,我们需要您按照自学习平台所支持的输入格式进行组织,并且上传。

自行上传的标注数据为JSON格式,且需要符合以下格式,其中文本的内容放在“content”中,而标签的内容放在“records”中,records 中key 为实体名,value 为标注内容在原文中的偏移量。

{
  "51979692":
   {
     "records":
      {
        "姓名":[{"offset":[0,2],"span":"张某"}],
        "手机号":[{"offset":[15,26],"span":"1390000****"}],
        "出生日期":[{"offset":[53,63],"span":"1990/07/27"}],
        "家庭地址":[{"offset":[68,74],"span":"南京-**区"}],
        "期望从事岗位":[{"offset":[86,93],"span":"软件测试工程师"}],
        "电子邮箱":[{"offset":[27,44],"span":"z****@example.com"}],
        "性别":[{"offset":[45,46],"span":"男"}]
      },
        "content":"张某 ID:6111****\n1390000****\nz****@example.com\n男|29 岁 (1990/07/27)|现居住南京-**区|8年工作经验\n职位: 软件测试工程师\n"
   }
}

三、创建模型

在“模型中心”点击“创建模型”;image

查看模型详情,点击模型右侧“查看”按钮查看模型详情。

image

模型详情页

image

模型测试

模型训练完成后,可对训练好的模型进行线上测试模型效果;

image

平台模型测试

基于平台已训练好的模型进行文本测试,可以针对需要提升的标签准确率进行单独训练;

image
  • 本页导读 (0)
文档反馈