产品介绍
面向算法小白用户的NLP行业自适应标注、训练和服务平台。该产品支持文本实体抽取、文本分类、关键短语抽取、情感分析、关系抽取、短文本匹配、商品评价解析等 NLP 定制化算法能力,用户无需拥有丰富的算法背景,仅需标注或上传适量文档数据,即可通过平台获得优质的 NLP 算法模型。
教学视频
功能介绍
NLP自学习平台包含如下服务功能
基础自学习模型:为用户提供文本实体抽取、文本分类、关键短语抽取、文本关系抽取、短文本匹配、情感分析等自然语言算法能力的模型训练。
文本分类 | 指对文本按照内容类型进行分类,例如短信场景中,运营商根据短信文本内容判断其对应的分类,例如涉黄、暴恐、涉政、广告等。本平台支持定制基于用户自建分类体系的分类模型。 |
文本实体抽取 | 抽取文本中具有特定意义的实体。例如合同审核场景中,需要抽取合同名称、甲方、乙方、收款账号等实体信息,用于快速将大量合同结构化,本平台支持定制基于用户自建实体类型的实体抽取模型。 |
关键短语抽取 | 基于 textrank 算法,抽取关键词及短语标签。本项目类型无需上传标注数据,算法将自动分析文本中的特征,抽取关键短语。同时,也可上传自定义词表以优化各自领域的关键短语抽取效果。 |
文本关系抽取 | 抽取文本中的实体及对应的关系。例如人名与生日,机构与成立时间等,本平台支持定制基于用户自建关系体系的关系抽取模型。 |
短文本匹配 | 提供不同文本之间相似度的计算,并输出一个介于0到1之间的分数,分数越大则文本之间的相似度越高。本平台支持定制基于用户自建数据集的短文本匹配模型。 |
情感分析 | 分析并给出文本的情感正负倾向,本平台支持定制基于用户自建数据集的情感分析模型。 |
场景应用自学习模型:为用户提供商品评价解析、简历抽取、招中标信息抽取、智能合同等自然语言算法能力的模型训练。
商品评价解析 | 基于阿里电商平台海量已标注数据,建立各行业定制模型,多维度分析商品评价文本。本平台支持定制基于用户自建评价维度的商品评价解析模型。 |
简历抽取 | 基于阿里内部海量已标注数据训练的模型和规则引擎,实现高准确率的中英文简历抽取等27个中文常见字段和10个英文常见字段。若有其他自定义字段,可自行补充标注数据,定制训练。 |
招中标信息抽取 | 智能化完成招标文件解析,自动化抽取招标金额、招标主体、标的等20+字段的抽取,辅助投标文件复查,提升中标率。 |
合同要素抽取 | 抽取合同中具有特定意义或关键的要素,支持格式:pdf(文字版)、word。标注数据越多,效果越佳。 |
智能合同 | 对合同里存在的风险点进行智能审查,包括合同逻辑错误、条款缺失、要素不一致、司法风险等;并对合同的相对方资质进行审查,包括多维度潜在风险、风险评级、相对方基本信息等。 |
预训练模型(可直接调用):为用户提供商品评价解析(电商/本地生活)、电销场景对话(分类/风险/诈骗识别)、新闻分类、新闻事件抽取(英文)、情感分析(多语言)、裁判文书抽取等直接调用的训练模型能力。
商品评价解析-电商领域 | 支持55种电商领域的行业和192个评价属性,提供多维度商品评价文本分析。 |
商品评价解析-本地生活领域 | 支持美容美发美甲、餐饮美食2种本地生活领域的行业和11个评价属性,提供多维度商品评价文本分析。 |
招中标公告类型分类服务 | 支持对招中标公告进行分类,目前支持“招标”、“中标”两种类型。 |
招标中标信息抽取-基础版服务 | 支持招中标信息里关于项目名称、项目编号、招标人名称、中标金额等13个字段的抽取。 |
招标中标信息抽取-高级版 | 支持招标、中标单独解析,对招标信息抽取22个字段。 |
招标中标信息抽取-高级版 | 支持招标、中标单独解析,对中标信息抽取29个字段。 |
合同要素抽取-通用领域 | 支持合同中的常见要素进行抽取,共支持26个通用要素字段。 |
在线客服场景解析 | 支持电商等行业的客服在线聊天场景,解析消费者说话内容,得到消费者意图、情感、情绪等结果。 |
文档结构化-KV信息抽取 | 适用于从文档中抽取符合key : value模式的信息,支持简历、合同、报告等文档。 |
电销场景对话 | 适用于电话销售外呼场景,针对对话应用按照行业和场景进行分类,可应用于语音质检。支持30+个行业和170+个场景。 |
脏话识别服务 | 支持电销场景对话客服质检、直播场景主播监管等应用场景。 |
电销场景对话 | 适用于电销人工外呼/智能外呼场景,识别用户的意图(反应)。 |
关键词抽取/文本摘要 | 适用于针对文档抽取关键词或者摘要。 |
简历抽取-英文 | 支持姓名、联系方式、学位、公司、职位等10个简历字段抽取,适用于英文简历。 |
简历抽取-中文 | 支持姓名、性别、年龄、学历、工作单位等33个简历字段抽取,适用于中文简历。 |
事件抽取(英文) | 支持对英文新闻里事件的抽取,包含33个事件类别。 |
商品标题类目预测 | 支持电商场景的商品标题,预测所属的类目,类目体系和淘宝等电商平台的一致。 |
对话知识抽取 | 适用于客服在线聊天场景,从对话中抽取出客服话术和用户问题,用于热点问题分析或构建客服话术库。 |
小说涉黄识别服务 | 支持中文小说涉黄/色情内容识别,适用于小说内容监管场景。输出涉黄的置信度和相关文本内容。 |
情感分析(俄语) | 适用于针对电商场景的社交媒体(短文本),预测俄语文本所表达的情感,分为正,中,负,三种情感。 |
情感分析(英语) | 适用于针对电商场景的社交媒体(短文本),预测英语文本所表达的情感,分为正,中,负,三种情感。 |
情感分析(西班牙语) | 适用于针对电商场景的社交媒体(短文本),预测西班牙语文本所表达的情感,分为正,中,负,三种情感。 |
情绪识别服务 | 支持电销、在线接待等应用场景,识别客户或客服的情绪,支持8种常规情绪和3种业务场景常用情绪。 |
文本向量生成 | 支持中文文本输入,输出文本对应的向量表示。 |
新闻文本分类 | 支持对单个或多个新闻文本的分类。 |
直播ASR乱码识别 | 适用于直播场景,通过ASR语音转文字,识别由于多人同时说话导致的文字可读性不佳的问题。 |
裁判文书抽取 | 支持10个案由的文书,解析得到38个字段。 |
产品优势
易用:使用流程简单,无需工程与算法背景。
快捷:全链路优化,平均训练模型耗时<30分钟。
专业:专业技术沉淀,500+标注数据时,模型准确率预计>85%。