什么是地址标准化

产品简介

地址标准化(Address Purification)是依托阿里云海量的地址语料库,以及超强的NLP算法实力所沉淀出的高性能及高准确率的标准地址算法服务。该地址算法服务能解决一地多名,地址识别,地址真伪辨别等多种问题,为企业,政府机关以及开发者提供地址数据清洗,地址标准化能力,使地址数据更好的为业务提供支持。

产品优势

准确率高:持续优化迭代,算法准确率高

超强性能:稳定承载海量数据

服务全面:20多种地址服务,满足不同业务场景需求

部署灵活:支持公共云、混合云、私有化部署。

基础服务

1.地址抽取

从自然文本中提取出地址片段。将碎片化的地址信息提取归类。去除地址信息以外的信息杂质,抽取后的地址规范标准。

例如从文章文本,快递物流运单,案件卷宗,客服聊天记录等信息中抽取地址数据,并且纠错之后输出标准化地址数据。

如图所示:

2.姓名抽取

有些业务场景需要从物流单据的地址信息中提取出收件人和寄件人的姓名信息使用,这样的需求可以通过姓名抽取功能完成。

该服务可以从物流运单中精准识别,并且抽取姓名片段,直接剔除除了真人姓名之外的其他地址信息。

如图所示:

姓名抽取

3.电话号码抽取

和姓名抽取类似,一些场景中,需要提取收件人和寄件人的联络电话号码,此种需求则可以通过电话号码抽取来满足。

该服务可以从物流运单中精准识别,抽取手机或者固话文本信息。将其他的信息都剔除干净。

电话号码抽取以及姓名抽取两项服务经常会联用,抽取收寄件人名以及联系方式。

如图所示:

电话号码

4.行政区划解析

该项服务可以根据输入的地址(可以是完整的地址信息或不完整的地址信息)或者POI信息(如小区名称,酒吧商店名称等等),识别出所对应的行政区划。同时,行政区划识别支持对缺失的行政区划进行补全,最终系统会输出的内容是:行政区划编码 + 省+ 市 + 区+ 街道等。

如图所示:

5.邮编识别

输入地址,输出地址所对应的邮政编码,默认细化到区县级别。

如图所示:

地址文本清洗

1.地址结构化

将地址切分23个不同地址元素,包括行政区划类、路网信息类、地点详情类、定位辅助词等非地址内容。将地址的每个要素剥离出来分类归纳,让地址清晰,有结构,更方便用于输出到应用层调用。

如图所示:

2.地址纠错

地址纠错是指对用户原始输入文本中存在的拼写错误进行纠正,并输出正确地址候选结果的服务,支持特定的行政区划、长地址、ASR输入纠错。

如图所示:

3.地址补全

地址补全是指对用户原始输入地址片段,包括其缺失的行政区划(省/市/区/街道)、路名、路号进行片段信息补充,支持对行政区划的变迁纠正,从而将地址还原成完整地址的服务。

如图所示:

4.门址标准化

对用户原始地址,包括缺省地址信息进行补全,同时对行政区划(省/市/区/街道)及路名、路号等错误信息,修改成正确结果,从而对标准地名信息的规范标准化的服务。

如图所示:

imageimage

5.地址异常检测

判断地址是否为问题地址,并且明确问题类型,具体问题类型包括:非地址、片段缺失、片段冗余、数字位数错误等。

1)当输入地址片段时,系统会检测出该地址信息中缺失部分;

2)当输入的地址错误或不存在时,系统会返回“非地址”结果;

3)系统按照设定规则对地址进行质检,直至地址标准、准确。

如图所示:

地址智能填写

1.物流面单信息提取

对物流信息中人名、地名、电话号码进行提取和识别,支持识别结果的智能返填,常用于电商、物流场景。

如图所示:

物流面单

2.地址搜索

地址搜索是指用户输入地址文本相关信息,返回相关POI信息,当前支持拼音搜索(全拼+首字母)、汉字搜索(包含错别字)的地址搜索,用户输入一条完整地址点击确认后返回地址搜索结果,默认按照相关性返回TOP5搜索结果。

如图所示:

3.地址输入联想

地址输入联想是基于阿里地址库数据能力为用户设计的一套通用地址输入服务,目前支持详细地址输入联想,并且返回结果按照相关性进行排序,支持全拼、拼音首字母、汉字、错别字形式的输入。

如图所示:

智能地址应用

1.多地址相似性判断

多地址相似性判断是指通过对两条输入地址文本,判断其是否为同一地址,并对其相似性进行打分,针对不同部分片段返回输入文本的最细粒度相同层级及两个地址的基于经纬度点的距离。

如图所示:

imageimage

2.多源地址归一

多源地址归一是指将用户输入的地址信息,通过返回oneID作为其唯一的标识,使得来自不同来源的但指向同一物理存在地理位置的地点拥有相同的唯一ID ,从而实现多源地址数据的归一化,其中支持POI级别归一、层户级别(roomno)的归一。

如图所示:

imageimage

地址空间化

1.通用经纬度查询(POI级别)

通用经纬度查询是指对用户输入的地址信息,返回用户地址所对应的空间经纬度坐标信息,默认返回高德坐标系结果,同时返回参数上提供了输入地址与返回经纬度结果的匹配层级,便于用户过滤低精度位置返回结果。

如图所示:

imageimage

2.坐标系转换

对输入的指定坐标系的经纬度坐标进行其他坐标系转换;目前支持的坐标系包括:GCJ02、WGS84、CGCS2000、BD09。

如图所示:

3.高精度经纬度查询(楼栋级别)

高精度经纬度查询是指对用户输入的地址信息,返回用户地址所对应的高精度空间经纬度坐标的结果,默认支持高德坐标系,返回结果上一般可以精细到楼栋级别。

如图所示:

imageimage

地址特征分析

1.地址类型识别

地址类型识别(POI分类)是指对用户输入的地址信息,通过阿里地址知识库的信息,判定该地址所属的具体POI(兴趣点)类型,如小区、国家机关或商场等,目前按照3级分类,目前分类参考互联网分类。

如图所示:

2.POI预测

对用户输入的含路名及路号的地址信息,通过阿里地址知识库预测出该地址信息所关联的POI详细信息 ,并且对关联返回的结果提供置信度评估。

如图所示:

语音对话场景

1.语音地址识别

语音地址输入识别是指在语音场景下,针对语音识别转写后的地址相关信息,通过语音顺滑、地址抽取、地址纠错、地址补齐后,给用户输出标准化地址信息,解决语音对话场景下的地址识别应用,例如语音导航等。

如图所示:

语音地址识别演示

2.对话上下文地址推理

在上下文语音对话场景,针对用户所输入的多轮对话,通过对话文字识别、上下文推理,识别出地址关联片段,通过对语音地址的顺滑、抽取、纠错、补齐等,及上下文推理补全,返回相关性top3的排序结果。主要用于人人对话场景报警/报修/物流地址的推理识别。

如图所示:

imageimage