地址标准化简单介绍。

地址标准化(Address Purification)是依托阿里云海量的地址语料库,以及超强的NLP算法实力所沉淀出的高性能及高准确率的标准地址算法服务。该地址算法服务能解决一地多名,地址识别,地址真伪辨别等多种问题,为企业,政府机关以及开发者提供地址数据清洗,地址标准化能力,使地址数据更好的为业务提供支持。

产品优势

阿里云地址标准化产品,是通过超强的NLP算法技术实力将阿里巴巴多年来累计的海量地址语料库进行不断的打磨,训练,最终沉淀出来的高性能及高准确率标准地址算法。

这套超强的算法能够实现对杂乱,非结构化的原始地址数据进行清洗,抽取,纠错优化,然后将整理完成的结构化,标准化地址数据输出,让处理后的地址能够满足客户业务及应用场景的需求。

阿里云地址标准化产品,识别精准迅速,调用简单明确,无需任何算法基础即可随调随用,更无需自行进行任何语料算法的训练。同时,产品的功能涵盖的范围广,能满足各行各业对地址数据多种多样不同的需求。

功能特性

基础服务

1.地址抽取

从自然文本中提取出地址片段。将碎片化的地址信息提取归类。去除地址信息以外的信息杂质,抽取后的地址规范标准。

例如从文章文本,快递物流运单,案件卷宗,客服聊天记录等信息中抽取地址数据,并且纠错之后输出标准化地址数据。

如图所示:

 2.姓名抽取

有些业务场景需要从物流单据的地址信息中提取出收件人和寄件人的姓名信息使用,这样的需求可以通过姓名抽取功能完成。

该服务可以从物流运单中精准识别,并且抽取姓名片段,直接剔除除了真人姓名之外的其他地址信息。

如图所示:

3.电话号码抽取

和姓名抽取类似,一些场景中,需要提取收件人和寄件人的联络电话号码,此种需求则可以通过电话号码抽取来满足。

该服务可以从物流运单中精准识别,抽取手机或者固话文本信息。将其他的信息都剔除干净。

电话号码抽取以及姓名抽取两项服务经常会联用,抽取收寄件人名以及联系方式。

如图所示:

4.行政区划识别

该项服务可以根据输入的地址(可以是完整的地址信息或不完整的地址信息)或者POI信息(如小区名称,酒吧商店名称等等),识别出所对应的行政区划。同时,行政区划识别支持对缺失的行政区划进行补全,最终系统会输出的内容是:行政区划编码 + 省+ 市 + 区+ 街道等。

如图所示:

5.邮编查询

输入地址,输出地址所对应的邮政编码。

如图所示:

高级服务

1.地址结构化

对输入的地址进行结构化解析,将一整段长地址按照省,市,区,路,街,最终精确到POI来进行结构化分解,甚至能够做到几号,楼栋号等等,精细度非常之高。将地址的每个要素剥离出来分类归纳,让地址清晰,有结构,更方便用于输出到应用层调用。

如图所示:输入“浙江省杭州市余杭区五常街道文一西路969号1号楼”,服务会将地址按照标准结构把地址的每个部分都截断,然后根据结构,输出结构化地址文本。

2.地址类型识别

针对用户输入的POI名称或者地点名称,比如园区名称,小区名称,机构地点名称,提取这个POI的地址信息,并且最后按照三级分类进行POI类型的划分归类。 

如图所示:

3.地址纠错

在客户输入地址的时候,经常会因为各种情况把地址输入错误,地址纠错可以解决原始地址数据错误后造成的一系列问题,直接对用户输入的错误地址进行纠错,包括地址信息中用户填错的省、市、区、街道等字段的纠正、地址文字纠错。

如图所示:

4.地址相似层级判定

在生活中经常碰到一个地方有多种叫法的情况, 如何能判断他们是否是同一地点呢?地址相似层级判定可以完成这个任务。判断两个地点是否为同一地址,并且判断后直接给出判断结果,两地或多个地名是否是同一地点,并给出最高细粒度的相同地址级别。

如图所示:

5.物流面单信息提取对物流信息中人名、地名、电话号码进行提取和识别,支持识别结果的智能返填,常用于电商、物流场景。

如图所示:

6.地址补全

对输入地址缺失的行政区划以及路名路号进行补全;支持对用户输入错别字进行纠错;支持对行政区划的变迁纠正。

如图所示:

7.POI预测

通过POI预测接口针对给定区域所覆盖地,预测对该区域覆盖的POI点,即对无POI的输入地址,根据行政区划、路名路号等信息预测其POI名。

如图所示:

8.经纬度查询--国内

对输入的地址文本做经纬度坐标查询,精确到POI;返回经纬度中包含GCJ02和WGS84两种做标系。

如图所示:

9.坐标系转换

对输入的指定坐标系的经纬度坐标进行其他坐标系转换;目前支持的坐标系包括:GCJ02、WGS84、CGCS2000、BD09。

如图所示:

10.地址搜索

输入地址文本,返回相关的POI信息。支持多形式的地址搜索:包括汉字、首字母、拼音文字混合搜索、错别字搜索纠错等,提供二次排序服务。

1) 拼音搜索:支持拼音的地址搜索提供二次排序服务;

2) 汉字搜索:支持汉字的地址搜索提供二次排序服务;

3) 首字母搜索:支持首字母的地址搜索提供二次排序服务;

4) 拼音文字混合搜索:支持拼音文字混合的地址搜索提供二次排序服务;

5) 错别字搜索纠错:支持错别字的地址搜索提供二次排序服务;

6) 地址检索服务:提供检索的应用页面,用户直接可以通过调用该应用,获取标准化地址,该检索页面底层是es引擎,可以支持线性扩展,以及增,删,改,查等复杂功能;

7) 4级地址输入:提供4级地址+详细地址输入服务,提供接口被集成。

如图所示:

11.地址输入联想

输入地址文本,联想出相关地址信息;前4级+联想。

如图所示:

12.异常地址判定:

判断地址是否为问题地址,并且明确问题类型,具体问题类型包括:非地址、片段缺失、片段冗余、数字位数错误等。

1)当输入地址片段时,系统会检测出该地址信息中缺失部分;

2)当输入的地址错误或不存在时,系统会返回“非地址”结果;

3)系统按照设定规则对地址进行质检,直至地址标准、准确。

如图所示: