地址标准化简单介绍。

地址标准化(Address Purification)是依托阿里云海量的地址语料库,以及超强的NLP算法实力所沉淀出的高性能及高准确率的标准地址算法服务。该地址算法服务能解决一地多名,地址识别,地址真伪辨别等多种问题,为企业,政府机关以及开发者提供地址数据清洗,地址标准化能力,使地址数据更好的为业务提供支持。

产品优势

阿里云地址标准化产品,是通过超强的NLP算法技术实力将阿里巴巴多年来累计的海量地址语料库进行不断的打磨,训练,最终沉淀出来的高性能及高准确率标准地址算法。

这套超强的算法能够实现对杂乱,非结构化的原始地址数据进行清洗,抽取,纠错优化,然后将整理完成的结构化,标准化地址数据输出,让处理后的地址能够满足客户业务及应用场景的需求。

阿里云地址标准化产品,识别精准迅速,调用简单明确,无需任何算法基础即可随调随用,更无需自行进行任何语料算法的训练。

同时,产品的功能涵盖的范围广,能满足各行各业对地址数据多种多样不同的需求。

功能特性

基础服务

地址抽取

从自然文本中提取出地址片段。将碎片化的地址信息提取归类。去除地址信息以外的信息杂质,抽取后的地址规范标准。

例如从文章文本,快递物流运单,案件卷宗,客服聊天记录等信息中抽取地址数据,并且纠错之后输出标准化地址数据。

如下图例子:

 姓名抽取

有些业务场景需要从物流单据的地址信息中提取出收件人和寄件人的姓名信息使用,这样的需求可以通过姓名抽取功能完成。

该服务可以从物流运单中精准识别,并且抽取姓名片段,直接剔除除了真人姓名之外的其他地址信息。

电话号码抽取

和姓名抽取类似,一些场景中,需要提取收件人和寄件人的联络电话号码,此种需求则可以通过电话号码抽取来满足。

该服务可以从物流运单中精准识别,抽取手机或者固话文本信息。将其他的信息都剔除干净。

电话号码抽取以及姓名抽取两项服务经常会联用,抽取收寄件人名以及联系方式。

行政区划识别

该项服务可以根据输入的地址(可以是完整的地址信息或不完整的地址信息)或者POI信息(如小区名称,酒吧商店名称等等),识别出所对应的行政区划。同时,行政区划识别支持对缺失的行政区划进行补全,最终系统会输出的内容是:行政区划编码 + 省+ 市 + 区+ 街道等。

如下图例子:

输入“未来悦”,输出小区的具体行政区划。

邮政编码查询

输入地址,输出地址所对应的邮政编码。

如下图例子:

高级服务

地址结构化

对输入的地址进行结构化解析,将一整段长地址按照省,市,区,路,街,最终精确到POI来进行结构化分解,甚至能够做到几号,楼栋号等等,精细度非常之高。将地址的每个要素剥离出来分类归纳,让地址清晰,有结构,更方便用于输出到应用层调用。

如下图例子:输入杭州市文一西路969号1号楼;杭州市文一西路969号1栋,服务会将地址按照标准结构把地址的每个部分都截断,然后根据结构,输出结构化地址文本。

地址POI类型识别

针对用户输入的POI名称或者地点名称,比如园区名称,小区名称,机构地点名称,提取这个POI的地址信息,并且最后按照三级分类进行POI类型的划分归类。 

如下图例子:

地址纠错

在客户输入地址的时候,经常会因为各种情况把地址输入错误,地址纠错可以解决原始地址数据错误后造成的一系列问题,直接对用户输入的错误地址进行纠错,包括地址信息中用户填错的省、市、区、街道等字段的纠正、地址文字纠错。

地址相似层级判定

在生活中经常碰到一个地方有多种叫法的情况, 如何能判断他们是否是同一地点呢?地址相似层级判定可以完成这个任务。判断两个地点是否为同一地址,并且判断后直接给出判断结果,两地或多个地名是否是同一地点,并给出最高细粒度的相同地址级别。

如下图例子: