NLP定制化算法模型训练-NLP自学习平台-自然语言处理-阿里云

NLP自学习平台产品介绍。

产品概述

面向算法小白用户的NLP行业自适应标注、训练和服务平台。该产品支持文本实体抽取、文本分类、关键短语抽取、情感分析、关系抽取、短文本匹配、商品评价解析等 NLP 定制化算法能力，用户无需拥有丰富的算法背景，仅需标注或上传适量文档数据，即可通过平台获得优质的 NLP 算法模型。

教学视频

功能介绍

NLP自学习平台包含如下服务功能

基础自学习模型：为用户提供文本实体抽取、文本分类、关键短语抽取、文本关系抽取、短文本匹配、对话文本分类等自然语言算法能力的模型训练。

模型名称	模型说明	最大文本长度
文本分类	指对文本按照内容类型进行分类，例如短信场景中，运营商根据短信文本内容判断其对应的分类，例如涉黄、暴恐、涉政、广告等。本平台支持定制基于用户自建分类体系的分类模型。	/
文本实体抽取	抽取文本中具有特定意义的实体。例如合同审核场景中，需要抽取合同名称、甲方、乙方、收款账号等实体信息，用于快速将大量合同结构化，本平台支持定制基于用户自建实体类型的实体抽取模型。	/
关键短语抽取	基于 textrank 算法，抽取关键词及短语标签。本项目类型无需上传标注数据，算法将自动分析文本中的特征，抽取关键短语。同时，也可上传自定义词表以优化各自领域的关键短语抽取效果。	500个字符
文本关系抽取	抽取文本中的实体及对应的关系。例如人名与生日，机构与成立时间等，本平台支持定制基于用户自建关系体系的关系抽取模型。	/
短文本匹配	提供不同文本之间相似度的计算，并输出一个介于0到1之间的分数，分数越大则文本之间的相似度越高。本平台支持定制基于用户自建数据集的短文本匹配模型。	/
双句文本分类	对两句文本按照内容类型进行分类，同时支持单选和多选。典型应用场景：计算两句话是否语义相等、计算问句和回答是否匹配、考虑上下文的单句分类等。	/
对话文本分类	对整个对话文本按照内容类型进行分类，同时支持单选和多选。典型应用场景：对话质检、客户意图识别、电销线索挖掘等。	/

行业场景自学习模型：为用户提供情感分析、商品评价解析、简历抽取、招中标信息抽取等自然语言算法能力的模型训练。

模型名称	模型说明	最大文本长度
情感分析	分析并给出文本的情感正负倾向，本平台支持定制基于用户自建数据集的情感分析模型。	/
商品评价解析	基于阿里电商平台海量已标注数据，建立各行业定制模型，多维度分析商品评价文本。本平台支持定制基于用户自建评价维度的商品评价解析模型。	500个字符
简历抽取	基于阿里内部海量已标注数据训练的模型和规则引擎，实现高准确率的中英文简历抽取等27个中文常见字段和10个英文常见字段。若有其他自定义字段，可自行补充标注数据，定制训练。	/
招中标信息抽取	智能化完成招标文件解析，自动化抽取招标金额、招标主体、标的等20+字段的抽取，辅助投标文件复查，提升中标率。	/
合同要素抽取	抽取合同中具有特定意义或关键的要素，支持格式：pdf（文字版）、word。标注数据越多，效果越佳。	/

应用算法自学习模型：合同抽取、司法裁判文书（事实认定）等自然语言算法能力的模型训练。

模型名称	模型说明	最大文本长度
合同抽取	抽取合同文本中的实体，内置20+个无需标注的实体标签，模型训练的数据标注成本低至原本的20%以下。	/
司法裁判文书（事实认定）	抽取司法裁判文书中事实认定的实体，内置10+个无需标注的实体标签，模型训练的数据标注成本低至原本的50%以下。	/

预训练模型（可直接调用）：为用户提供商品评价解析（电商/本地生活）、电销场景对话（分类/风险/诈骗识别）、新闻分类、新闻事件抽取（英文）、情感分析（多语言）、裁判文书抽取等直接调用的训练模型能力。

模型名称	模型说明	最大文本长度
商品评价解析-电商领域	支持55种电商领域的行业和192个评价属性，提供多维度商品评价文本分析。	500个字符
商品评价解析-本地生活领域	支持美容美发美甲、餐饮美食2种本地生活领域的行业和11个评价属性，提供多维度商品评价文本分析。	500个字符
商品评价解析-汽车领域	支持汽车领域68个评价属性，提供多维度商品评价文本分析。	500个字符
商品评价购买决策分析-电商领域	适用于分析用户的购买动机、使用场景、功能需求、使用疑问等购买决策相关的信息，可以帮助改进产品、改善用户体验、细分人群画像、针对性营销投放等。	500个字符
商品评价购买决策分析-汽车领域	适用于分析用户的购买动机、使用场景、功能需求、使用疑问等购买决策相关的信息，可以帮助改进产品、改善用户体验、细分人群画像、针对性营销投放等。	500个字符
招中标公告类型分类服务	支持对招中标公告进行分类，目前支持“招标”、“中标”两种类型。	/
招标中标信息抽取-基础版服务	支持招中标信息里关于项目名称、项目编号、招标人名称、中标金额等13个字段的抽取。	/
招标中标信息抽取-高级版	支持招标、中标单独解析，对招标信息抽取22个字段。	/
招标中标信息抽取-高级版	支持招标、中标单独解析，对中标信息抽取29个字段。	/
合同要素抽取-通用领域	支持合同中的常见要素进行抽取，共支持26个通用要素字段。	/
在线客服场景解析	支持电商等行业的客服在线聊天场景，解析消费者说话内容，得到消费者意图、情感、情绪等结果。	/
文档结构化-KV信息抽取	适用于从文档中抽取符合key : value模式的信息，支持简历、合同、报告等文档。	/
电销场景对话-行业分类	适用于电话销售外呼场景，针对对话应用按照行业和场景进行分类，可应用于语音质检。支持30+个行业和170+个场景。	/
脏话识别服务	支持电销场景对话客服质检、直播场景主播监管等应用场景。	/
电销场景对话-用户意图识别	适用于电销人工外呼/智能外呼场景，识别用户的意图（反应）。	/
简历抽取-英文	支持姓名、联系方式、学位、公司、职位等10个简历字段抽取，适用于英文简历。	/
简历抽取-中文	支持姓名、性别、年龄、学历、工作单位等33个简历字段抽取，适用于中文简历。	/
事件抽取（英文）	支持对英文新闻里事件的抽取，包含33个事件类别。	/
商品标题类目预测	支持电商场景的商品标题，预测所属的类目，类目体系和淘宝等电商平台的一致。	/
对话知识抽取	适用于客服在线聊天场景，从对话中抽取出客服话术和用户问题，用于热点问题分析或构建客服话术库。	/
小说涉黄识别服务	支持中文小说涉黄/色情内容识别，适用于小说内容监管场景。输出涉黄的置信度和相关文本内容。	600个字符
情感分析（俄语）	适用于针对电商场景的社交媒体（短文本），预测俄语文本所表达的情感，分为正，中，负，三种情感。	/
情感分析（英语）	适用于针对电商场景的社交媒体（短文本），预测英语文本所表达的情感，分为正，中，负，三种情感。	/
情感分析（西班牙语）	适用于针对电商场景的社交媒体（短文本），预测西班牙语文本所表达的情感，分为正，中，负，三种情感。	/
情绪识别服务	支持电销、在线接待等应用场景，识别客户或客服的情绪，支持8种常规情绪和3种业务场景常用情绪。	1000个字符
新闻文本分类	支持对单个或多个新闻文本的分类。	/
直播ASR乱码识别	适用于直播场景，通过ASR语音转文字，识别由于多人同时说话导致的文字可读性不佳的问题。	600个字符
裁判文书抽取	支持10个案由的文书，解析得到38个字段。	/
关键词抽取和文本摘要（抽取式）	适用于针对文档抽取关键词或者摘要。	500个字符
文本摘要（生成式）	针对实际场景中常见的文本生成需求所设计，适用于生成文本摘要或者生成文章的标题。：	500个字符
商品文案生成（中文）	适用于：给定商品和一些卖点词，生成和卖点相关的商品文案描述。	500个字符
天气播报欢迎语生成（中文）	适用于：给定一些天气信息字段，生成车载开机欢迎语生成介绍。	500个字符
文本向量生成	支持中文文本输入，输出文本对应的向量表示。	/

产品优势

易用：使用流程简单，无需工程与算法背景。
快捷：全链路优化，平均训练模型耗时<30分钟。
专业：专业技术沉淀，500+标注数据时，模型准确率预计>85%。