掌桥专利:专业的专利平台
掌桥专利
首页

信息点识别方法、装置及电子设备

文献发布时间:2023-06-19 09:57:26


信息点识别方法、装置及电子设备

技术领域

本申请涉及智能搜索技术领域,尤其涉及深度学习技术领域,具体涉及一种信息点识别方法、装置及电子设备。

背景技术

信息点识别技术指的是通过信息点对应的多维特征判定两个信息点是否属于同一空间实体。其广泛应用于信息点数据上线、信息点数据去重、信息点优质基础属性补充、信息点预定服务和优质内容属性补充等场景,是地图内容生态最核心的基础技术之一。

目前,信息点识别方式主要是分两个阶段进行信息点识别,第一阶段为计算两个信息点的文本语义相似度,第二阶段为基于这两个信息点的文本语义相似度以及其他维度上的相似度判定这两个信息点是否属于同一空间实体。

发明内容

本公开提供了一种信息点识别方法、装置及电子设备。

根据本公开的第一方面,提供了一种信息点识别方法,包括:

获取第一相似度特征和第二相似度特征;其中,所述第一相似度特征用于表征第一信息点与第二信息点的文本语义相似度,所述第二相似度特征用于表征所述第一信息点与第二信息点在N维度上的N个相似度,N为大于1的正整数;

将所述第一相似度特征和第二相似度特征进行融合,得到目标特征;

基于所述目标特征,确定所述第一信息点与第二信息点是否为同一信息点。

根据本公开的第二方面,提供了一种信息点识别装置,包括:

获取模块,用于获取第一相似度特征和第二相似度特征;其中,所述第一相似度特征用于表征第一信息点与第二信息点的文本语义相似度,所述第二相似度特征用于表征所述第一信息点与第二信息点在N维度上的N个相似度,N为大于1的正整数;

融合模块,用于将所述第一相似度特征和第二相似度特征进行融合,得到目标特征;

确定模块,用于基于所述目标特征,确定所述第一信息点与第二信息点是否为同一信息点。

根据本公开的第三方面,提供了一种电子设备,包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中的任一项方法。

根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行第一方面中的任一项方法。

根据本申请的技术解决了信息点识别技术存在的识别准确率比较低的问题,提高了信息点识别的准确率。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是根据本申请第一实施例的信息点识别方法的流程示意图;

图2是信息点识别方法的实现框架示意图;

图3是地址相似度的计算框架示意图;

图4为文本语义匹配网络的框架示意图;

图5是根据本申请第二实施例的信息点识别装置的结构示意图;

图6是用来实现本申请实施例的信息点识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示,本申请提供一种信息点识别方法,包括如下步骤:

步骤S101:获取第一相似度特征和第二相似度特征;其中,所述第一相似度特征用于表征第一信息点与第二信息点的文本语义相似度,所述第二相似度特征用于表征所述第一信息点与第二信息点在N维度上的N个相似度,N为大于1的正整数。

本实施例中,信息点识别方法涉及智能搜索技术领域,尤其涉及深度学习技术领域,其可以应用于电子设备,该电子设备可以为服务器,也可以为终端,这里不做具体限定。

在一些应用场景中,信息点识别技术可以称之为信息点链指技术,其可以广泛应用于信息点数据上线、信息点数据去重、信息点优质基础属性补充、信息点预定服务和优质内容属性补充等场景。其具体应用是基于一信息点从地图系统中链指即链接到与之相同的信息点,或者链接到与之不同的信息点,以进行相应的处理。

比如,在信息点数据上线的应用场景,目标信息点在数据上线之前,可以判定地图系统中是否存在与之相同的信息点,具体的,可以将目标信息点与地图系统中的每个信息点进行匹配,以判定地图系统中是否存在与之相同的信息点。

在地图系统中链指到与之相同的信息点的情况下,可以不对其进行重新收录,而在地图系统中链指到与之不同的信息点的情况下,对其进行收录。另外,在地图系统中链指到与目标信息点相同的信息点的情况下,可以针对目标信息点的属性内容,对地图系统中与之相同的信息点的属性内容进行补充,如补充信息点的多媒体内容,以丰富地图系统中信息点的属性内容。

又比如,可以对线上数据进行查重,针对地图系统中收录的信息点,可以进行信息点识别,以进行信息点查重。

还比如,可以针对目标信息点从地图系统中召回与之相同或相似的信息点,以实现用户搜索功能。

在步骤S101中,所述第一信息点和第二信息点为两个信息点,其可以称之为兴趣点,在地理信息系统中,一个信息点可以是一栋房子、一个商铺、一个邮筒、一个公交站或一个景点等。

所述第一信息点和第二信息点均可以为地图系统中的信息点。在一些应用场景中,所述第一信息点和所述第二信息点也可以为一信息点为地图系统中的信息点,另一信息点不为地图系统中的信息点,其具体应用是针对目标信息点(该信息点可以不为地图系统中的信息点),与地图系统中的信息点(可以称之为待匹配信息点)进行匹配,判定目标信息点和待匹配信息点是否为同一信息点,以进行相应的处理。

在所述第一信息点和所述第二信息点为一信息点为地图系统中的信息点,另一信息点不为地图系统中的信息点的应用场景中,所述第一信息点可以为目标信息点,而第二信息点可以为地图系统中的待匹配信息点。所述第一信息点也可以为地图系统中的待匹配信息点,而第二信息点也可以为目标信息点。以下实施例中,将以所述第一信息点为目标信息点,所述第二信息点为地图系统中的待匹配信息点为例进行说明。

所述第一相似度特征用于表征第一信息点与第二信息点的文本语义相似度,所述文本语义相似度为文本相似度中的一种。所述第一信息点与第二信息点的文本相似度可以包括一个或多个维度的相似度,这些维度上的相似度均可以基于两个信息点的文本信息得到,其中,文本信息指的是以文本形式表征的信息点的信息,具体可以包括信息点的名称信息、标签信息、地址信息、位置信息以及联系方式信息等。

所述第一信息点的标签信息可以指示所述第一信息点的分类类别,如所述第一信息点的标签信息为“休闲娱乐”,即所述第一信息点的分类类别为休闲娱乐。另外,所述第一信息点可以包括多级标签,如所述第一信息点为一家商务酒店,其一级标签可以为休闲娱乐,二级标签可以为酒店。

所述第一信息点的地址信息可以包括所述第一信息点所在的城市、区县、道路以及门牌号等,而所述第一信息点的位置信息可以指的是导航定位所确定的地理位置信息,如经纬度信息。

所述第一信息点的联系方式信息可以包括所述第一信息点对应的联系电话、网址以及账号等。

所述文本语义相似度即是所述第一信息点与第二信息点在名称维度上的相似度,其实质是比较第一信息点的名称信息与第二信息点的名称信息,以确定第一信息点的名称与第二信息点的名称是否相似。

所述文本相似度还可以包括除名称维度之外的其他相似度,所述N个相似度即为所述文本相似度中除所述文本语义相似度之外的相似度,如所述N个相似度包括地址相似度、空间相似度、标签相似度和电话相似度。

所述标签相似度可以为第一信息点与第二信息点在标签维度上的相似度,其实质是比较第一信息点的标签信息与第二信息点的标签信息,以确定第一信息点的标签与第二信息点的标签是否相似。

所述空间相似度可以为第一信息点与第二信息点在位置维度上的相似度,其实质是确定第一信息点与第二信息点的空间距离,以确定第一信息点的位置与第二信息点的位置是否相似。

所述地址相似度可以为第一信息点与第二信息点在地址维度上的相似度,其实质是比较第一信息点的地址信息与第二信息点的地址信息,以确定第一信息点的地址与第二信息点的地址是否相似。

所述电话相似度可以为第一信息点与第二信息点在联系方式维度上的相似度,其实质是比较第一信息点的联系电话与第二信息点的联系电话,以确定第一信息点的联系电话与第二信息点的联系电话是否相似。

所述第二相似度特征即可以用于表征所述第一信息点与第二信息点的文本相似度中除文本语义相似度之外的其他相似度,具体可以用于表征地址相似度、空间相似度、标签相似度和电话相似度等中至少一个相似度。

所述第一相似度特征可以基于文本语义相似度确定,是所述文本语义相似度的特征表达,其特征表达的方式可以有多种,其可以采用二进制的数值来进行特征表达,也可以采用十进制的数值来进行特征表达,以下实施例中将以采用二进制的数值来进行特征表达为例进行详细说明。

所述第二相似度特征可以基于地址相似度、空间相似度、标签相似度和电话相似度等中至少一个相似度确定,所述第二相似度特征在表征多个维度的相似度的情况下,需要将表征这多个维度的相似度的特征信息进行融合,以得到第二相似度特征。其中,表征每个维度的相似度的特征信息基于该维度的相似度确定,是该维度的相似度的特征表达,为了统一特征表达,每个维度的相似度均采用二进制的数值来进行特征表达。

参见图2,图2是信息点识别方法的实现框架示意图,如图2所示,信息点识别方法可以由一个端到端的目标模型得到,该端到端的目标模型可以称之为端到端链指模型,其目的是根据目标信息点链指到地图系统中与该目标信息点相同的信息点,或者链指到与该目标信息点不同的信息点,以召回这些信息点。

其中,端到端链指模型指的是输入两个信息点的文本信息,即可直接输出这两个信息点的识别结果,而无需首先采用深度语义匹配模型,来确定两个信息点的文本语义相似度,再将文本语义相似度以及其他相似度输入至一个链指模型。

由于深度语义匹配模型和链指模型分别输出,其优化目标不统一,会导致模型优化效果存在折损,且深度语义匹配模型的输出对于链指模型的特征贡献又特征大,因此,使得信息点的识别效果无法保证,从而影响信息点的识别准确率。

本实施例中通过一个端到端链指模型,可以统一优化目标,避免优化目标不统一导致的模型优化效果折损。

如图2所示,所述端到端链指模型的输入可以为两个信息点的文本信息,可以包括地址信息、位置信息、标签信息、联系电话信息和名称信息。所述端到端链指模型的主体结构可以包括浅层wide部分和深层deep部分,所述wide部分的目的是分别得到表征地址相似度的特征信息、表征空间相似度的特征信息、表征标签相似度的特征信息和表征电话相似度的特征信息,并基于表征地址相似度的特征信息、表征空间相似度的特征信息、表征标签相似度的特征信息和表征电话相似度的特征信息,得到第二相似度特征,deep部分的目的是基于两个信息点的名称信息,最终得到第一相似度特征。

所述地址相似度可以通过地址解析和地址比较来确定,参见图3,图3是地址相似度的计算框架示意图,如图3所示,可以将第一信息点的地址信息和第二信息点的地址信息分别输入至地址解析器,所述地址解析器可以基于汉语词汇分析(Lexical Analysis ofChinese,LAC)的命名实体识别技术来进行地址解析的,得到第一信息点的地址解析结果和第二信息点的地址解析结果。其中,LAC可以为基于堆叠的双向门控循环单元(GateRecurrent Unit,GRU)结构。

地址解析结果可以为串行结构的地址,且地址解析结果中,每个地址标签均代表一定的含义,CIT代表城市,DIS代表区县,ROAD代表道路,SITE代表门牌号或者楼层号,POI代表信息点;SEG_ROAD代表该实体属性是道路,SEG_ROAD_NUM代表道路的门牌号,SEG_POI代表该实体属性是信息点,SEG_FLOOR_NUM代表信息点的楼层号。

将两个信息点的地址解析结果输入至地址比较器中,最终输出两个信息点的地址相似度。

在两个信息点均有精确地址的情况下,若道路名、门牌号和楼层号中至少有一个不相同,则可以表示两个信息点的地址不同,地址相似度可以用数值1来表示,若道路名、门牌号和楼层号全部相同,则表示两个信息点的地址相同,地址相似度可以用数值0来表示。而在有至少一个信息点没有精确地址的情况下,两个信息点的地址相似度未知,可以用其他数值表征,如数值2表征,这里不做具体限定。

所述空间相似度可以通过计算第一信息点与第二信息点之间的距离来确定,具体的,基于所述第一信息点的位置信息和第二信息点的位置信息,可以计算所述第一信息点与第二信息点之间的欧式距离,该欧式距离即为第一信息点与第二信息点之间的绝对距离,基于该绝对距离进行归一化之后,即可得到空间相似度。

在一可选实施方式中,可以直接对该绝对距离进行归一化,得到空间相似度,该空间相似度表征的是两个信息点的绝对距离。

在另一可选实施方式中,根据相同距离远近判断两个信息点是否属于同一空间实体的概念可能不一样,比如,距离300米的同名公园很可能是同一个,距离300米的同名连锁品牌店,有可能是一个,也有可能是两个,而距离300米的厕所,很可能不是同一个。

在进行信息点链指如搜索300米内的同名公园时,采用统一的召回距离可能会导致漏召回或者误召回。因此,可以对不同分类类别的信息点设置不同的召回距离,并基于该召回距离,对该绝对距离进行归一化,得到空间相似度,该空间相似度表征的是两个信息点的相对距离。

不同分类类别的信息点的召回距离示例可以如下表1所示。

表1部分分类类别的信息点的召回距离表

另外,距离对于链指结果(链指结果可以称之为召回结果或搜索结果)的影响应该是非线性的,小于某个取值区间其链指结果都是相同的,大于某个取值区间其链指结果都是不同的,而处于中间的取值区间其链指结果会逐渐变化。

因此,在计算空间相似度时,可以基于两个信息点的标签信息查询这两个信息点分别所预先设置的召回距离,并基于这两个信息点对应的召回距离对该绝对距离进行归一化时,以计算两个信息点的相对距离,该相对距离即为这两个信息点的空间相似度。

可以采用动态sigmoid函数基于两个信息点的召回距离对绝对距离进行归一化,动态sigmoid函数如公式(1)所示:

其中,上式(1)中,y即为表征两个信息点的相对距离的空间相似度,大小区间为[0,1],d表示第一信息点与第二信息点之间的绝对距离,n表示这两个信息点对应的召回距离。

在所述第一信息点与第二信息点的分类类别即标签信息相同的情况下,其召回距离为第一信息点或第二信息点的分类类别对应的召回距离,在所述第一信息点与第二信息点的分类类别不同的情况下,其召回距离可以为两个信息点的两个召回距离的均值。比如,第一信息点的分类类别为酒店,其召回距离为500米,第二信息点的分类类别为休闲娱乐,其召回距离为1000米,则召回距离即可以为750米。

两个信息点的空间相似度为0至1的连续型,空间相似度越小,则表示空间距离越近,空间相似度越大,则表示空间距离越远。

所述标签相似度主要是根据线上的链指关系统计得出的,其可以包括不同、相似和相同三个不同的层级。

不同代表这两个分类类别的信息点极少出现在同一个链指聚合组中;相似代表这两个分类类别的信息点有一定的概率出现在同一链指聚合组中;相同代表这两个分类类别的信息点绝大部分在同一链指聚合组中共现。其中,链指聚合组指的是将相同的信息点聚合在一起,以方便召回。

在两个信息点的标签信息相同的情况下,可以用数值2表征,在两个信息点的标签信息相似的情况下,可以用数值1表征,在两个信息点的标签信息相同的情况下,可以用数值2表征。另外,当至少有一个信息点的标签信息为空而无法比较的情况下,标签相似度可以用数值-1表征。

所述电话相似度可以通过电话解析和电话比较两个基本流程来完成。电话解析负责根据标点符号或空格符号将信息点对应的联系电话解析成为多个结构化电话,电话比较负责将多个结构化电话组装成为电话对,并分别比较,只要有一个电话对比较结果相同代表两个信息点的联系电话相同,否则代表信息点的联系电话不同。

在两个信息点的联系电话相同的情况下,电话相似度可以用数值0表征,在两个信息点的联系电话不同的情况下,电话相似度可以用数值1表征。

分别得到空间相似度、地址相似度、标签相似度和电话相似度之后,可以分别采用二进制的数值对每个维度的相似度来进行特征表达,得到表征每个维度的相似度的特征信息。

若某维度的相似度为离散数值如地址相似度,可以根据地址相似度的层级,采用相应位数的二进制对该地址相似度进行特征表征,如地址相似度的层级为3层,则可以采用3位二进制对该地址相似度进行特征表征。在地址相似度为2时,可以表征成“001”,在地址相似度为0时,可以表征成“010”,在地址相似度为1时,可以表征成“100”。

当然,上述特征表征的方式只是一种举例,还可以有其他的特征表征方式,这里不对其进行一一说明。对于离散型的其他相似度,其特征表征方式可以与地址相似度类似,这里不对其进行赘述。

若某维度的相似度为连续型如空间相似度,则还需要离散化为不同层级,再采用相应位数的二进制来表征这两个信息点的空间相似度所在的层级,最终得到表征空间相似度的特征信息。

之后,可以将这些特征信息直接拼接,也可以采用全连接层融合和交叉这些特征信息,如图2所示,最终得到第二相似度特征。

deep部分可以采用基于注意力机制的深度语义匹配网络来确定第一信息点与第二信息点的文本语义相似度。所述基于注意力机制的深度语义匹配网络可以采用孪生网络结构,左右子网络对称,左边子网络用于基于第一信息点的名称信息提取所述第一信息点的文本语义特征,右边子网络用于基于所述第二信息点的名称信息提取所述第二信息点的文本语义特征。

每边的子网络主要计算单元包括:自注意力机制网络、前向网络层、多头注意力机制网络和求和标准化模块,其中,自注意力机制网络负责单独计算信息点的特征向量,前向网络层是一个简单的全连接层,多头注意力机制网络负责计算两个信息点的相互作用关系特征向量,求和标准化模块负责残差连接和特征向量归一化,最终得到信息点的文本语义特征。

之后,基于拼接模块将第一信息点的文本语义特征与第二信息点的文本语义特征进行连接,并输入至逻辑回归模型进行分类,最终得到所述文本语义相似度。

所述文本语义相似度可以为一个归一化至0至1的浮点型数值,得分越小,则代表第一信息点的名称与第二信息点的名称越不相似,否则,则代表第一信息点的名称与第二信息点的名称越相似。

得到文本语义相似度之后,可以采用二进制的数值对文本语义相似度来进行特征表达,最终得到第一相似度特征。

步骤S102:将所述第一相似度特征和第二相似度特征进行融合,得到目标特征。

该步骤中,如图2所示,可以采用全连接层将第一相似度特征和第二相似度特征进行特征融合和交叉,最终得到目标特征。

步骤S103:基于所述目标特征,确定所述第一信息点与第二信息点是否为同一信息点。

该步骤中,可以基于融合得到的目标特征,确定所述第一信息点与第二信息点是否为同一信息点。

举个例子来说,在特征表达时,由于每位的二进制均代表相应的含义,以地址相似度来说,二进制数值中第二位为1,其他位数为0的情况下,表示两个信息点的地址相同。因此,可以通过判定目标特征中相应位置的二进制是否为1,来确定第一信息点与第二信息点是否为同一信息点,若相应位数的二进制为1,则确定第一信息点与第二信息点为同一信息点,否则为不同信息点。

在实际应用中,可以将目标特征输入至逻辑回归模型中,最终输出识别结果。

本实施例中,通过将第一相似度特征和第二相似度特征进行融合,得到目标特征,并基于目标特征确定所述第一信息点与第二信息点是否为同一信息点,如此,可以通过特征融合实现一个端到端的链指模型,从而可以统一优化目标,避免优化目标不统一导致的模型优化效果折损,进而可以提高信息点的识别准确率。并且,在信息点链指应用场景中,还可以提高信息点链指的召回率。

另外,由于端到端链指模型的输入即是信息点的文本信息,输出是两个信息点的识别结果,因此,有大规模的标注样本可用,相对于深度语义匹配模型的训练样本(其输出的文本语义相似度需要构造),可以减少模型的样本构建成本。

可选的,N大于2,获取第二相似度特征,包括:

获取所述第一信息点与第二信息点在N维度上的N个相似度;

获取表征每个维度上的相似度的特征信息;

将表征所述N个相似度的多个特征信息进行融合,得到所述第二相似度特征。

本实施方式中,如图2所示,主要由端到端链指模型的wide部分获取第二相似度特征。

具体的,首先,分别获取第一信息点与第二信息点的空间相似度、地址相似度、标签相似度和电话相似度,其具体的获取过程已经在上述进行详细说明,这里不对其进行赘述。

然后,针对每个维度上的相似度,可以采用二进制或其他进制对其进行特征表征,以获取表征每个维度上的相似度的特征信息。为了统一特征表达,每个维度的相似度均采用相同的表征方式,且可以均采用二进制的数值来进行特征表达,如图2所示。

另外,所示N个相似度中存在离散型的相似度,如地址相似度、标签相似度和电话相似度,也存在连续型的相似度,如空间相似度。针对离散型的相似度,在一可选实施方式中,可以基于相似度的层级,使用相应位数的二进制对其进行特征表征,如地址相似度被分成三个层级,可以采用3位二进制对其进行特征表征。

针对连续性的相似度,在进行特征表征之前,可以对其进行离散化成多个层级,之后采用相应位数的二进制数值对其进行特征表征。

最后,可以采用全连接层将表征所述N个相似度的多个特征进行充分的融合和交叉,得到第二相似度特征。

本实施方式中,通过端到端链指模型的wide部分将表征N个相似度的特征信息进行充分的特征融合和交叉,得到第二相似度特征,同时,wide部分的第二相似度特征充分融合了deep部分的表征文本语义相似度的第一相似度特征,最终得到目标特征进行信息点识别。如此,第一信息点与第二信息点的相似度特征做了充分地特征融合和交叉,从而可以进一步提高信息点识别的准确率。

可选的,所述N个相似度中包括所述第一信息点与第二信息点在距离维度上的空间相似度,获取所述第一信息点与第二信息点在距离维度上的空间相似度,包括:

获取所述第一信息点对应的第一召回距离,所述第二信息点对应的第二召回距离,以及所述第一信息点与第二信息点之间的目标距离;

基于所述第一召回距离和所述第二召回距离,对所述目标距离进行归一化,得到所述空间相似度。

由于根据相同距离远近判断两个信息点是否属于同一空间实体的概念可能不一样,比如,距离300米的同名公园很可能是同一个,距离300米的同名连锁品牌店,有可能是一个,也有可能是两个,而距离300米的厕所,很可能不是同一个。因此,在进行信息点链指如搜索300米内的同名公园时,采用统一的召回距离可能会导致漏召回或者误召回。

本实施方式中,可以对不同分类类别的信息点设置不同的召回距离,并基于该召回距离,对该绝对距离进行归一化,得到空间相似度,该空间相似度表征的是两个信息点的相对距离。

具体的,针对信息点的分类类别的不同,信息点的召回距离可能不同,可以基于第一信息点的标签信息,获取所述第一信息点对应的第一召回距离,并基于第二信息点的标签信息,获取所述第二信息点对应的第二召回距离。

在所述第一信息点的标签信息与第二信息点的标签信息相同的情况下,即第一信息点与第二信息点属于同一分类类别的情况下,所述第一召回距离和第二召回距离相等,否则,第一召回距离和第二召回距离有可能不相等。

可以采用动态sigmoid函数基于第一召回距离和第二召回距离对所述第一信息点与第二信息点之间的目标距离即绝对距离进行归一化,最终得到第一信息点与第二信息点的空间相似度。

其中,在所述第一召回距离和第二召回距离相等的情况下,上式(1)中,n为第一召回距离或第二召回距离均可,在所述第一召回距离和第二召回距离不相等的情况下,n可以为第一召回距离和第二召回距离的均值。

本实施方式中,通过基于信息点对应的召回距离对两个信息点之间的绝对距离进行归一化,得到两个信息点之间的相对距离,从而可以避免针对不同分类类别的信息点,由于根据相同距离远近判断两个信息点是否属于同一空间实体的概念不一样,而导致的漏召回或者误召回的情况发生,从而可以提高信息点链指的召回率。

可选的,获取表征所述距离维度上的空间相似度的特征信息,包括:

基于预设离散化步长确定所述空间相似度对应的离散化参数;

基于所述离散化参数,确定表征所述空间相似度的特征信息。

本实施方式中,所述空间相似度为连续型的相似度,在对其进行特征表征时,需要基于预设离散化步长确定所述空间相似度对应的离散化参数。

所述离散化参数表征所述第一信息点与第二信息点之间的相对距离所处的层级,层级越小,则可以表征第一信息点与第二信息点之间的相对距离越近,层级越大,则可以表征第一信息点与第二信息点之间的相对距离越远。

在基于预设离散化步长确定第一信息点与第二信息点的空间相似度对应的离散化参数之前,需要基于预设离散化步长对空间相似度进行分层。其中,可以基于相同离散化步长对空间相似度按照线性方式进行分层,也可以基于不同离散化步长对空间相似度按照非线性方式进行分层,这里不做具体限定。

比如,空间相似度的大小区间为[0,1],可以按照0.1的离散化步长将其分成10个层级。

又比如,空间相似度的大小区间为[0,1],可以基于预设离散化步长将其分为19个层级,其中,可以将0至0.1分为前9个层级,其离散化步长为0.01,将0.1至1分成后10个层级,其离散化步长为0.1。随着层级的增长,两个信息点之间的相对距离越来越远。

按照非线性方式进行分层之后,若获取到所述第一信息点与第二信息点的空间相似度,其为0.055,由于小于0.1,则将其定位为前9层级,离散化步长为0.01,将0.055除以0.01,商为5,并存在余数,则可以确定所述第一信息点与第二信息点的空间相似度所处的层级为6,即所述第一信息点与第二信息点的空间相似度对应的离散化参数为6。

根据所述离散化参数,采用二进制的数值对其进行表征,确定表征所述空间相似度的特征信息。

本实施方式中,针对连续性的相似度,需要离散化为不同层级,然后按照预设离散化步长,确定第一信息点与第二信息点的连续型的相似度的离散化参数,并基于所述离散化参数,确定表征所述空间相似度的特征信息。如此,可以实现对连续型的相似度进行特征表征,为特征融合和交叉奠定前提条件。

可选的,获取第一相似度特征,包括:

获取所述第一信息点的第一名称信息和所述第二信息点的第二名称信息;

将所述第一名称信息和第二名称信息输入至文本语义匹配网络;其中,所述文本语义匹配网络包括相互对称的第一子网络和第二子网络,所述第一子网络用于采用注意力机制对所述第一信息点进行特征提取,得到所述第一信息点的文本语义特征,所述第二子网络用于采用注意力机制对所述第二信息点进行特征提取,得到所述第二信息点的文本语义特征;

基于所述第一信息点的文本语义特征和第二信息点的文本语义特征,输出所述第一相似度特征。

本实施方式中,文本语义匹配网络可以采用双塔结构的深度语义匹配网络,深度语义匹配网络的特征提取单元为自注意力机制网络和多头注意力机制网络。

参见图4,图4为文本语义匹配网络的框架示意图,如图4所示,文本语义匹配网络可以采用孪生网络结构,左右子网络对称,分别可以为第一子网络和第二子网络,每边子网络均为一个深度语义匹配网络。左边子网络用于基于第一信息点的名称信息提取所述第一信息点的文本语义特征,右边子网络用于基于所述第二信息点的名称信息提取所述第二信息点的文本语义特征。

每边的子网络主要计算单元包括:自注意力机制网络、前向网络层、多头注意力机制网络和求和标准化模块,其中,自注意力机制网络负责单独计算信息点的特征向量,前向网络层是一个简单的全连接层,多头注意力机制网络负责计算两个信息点的相互作用关系特征向量,求和标准化模块负责残差连接和特征向量归一化。

具体的,获取第一信息点的第一名称信息和第二信息点的第二名称信息,将第一名称信息通过输入嵌入模块输入至第一子网络,将第二名称信息通过输入嵌入模块输入至第二子网络。

第一子网络通过自注意力机制网络,多头注意力机制网络结合前向网络层和求和标准化模块,基于第一名称信息进行特征提取,得到第一信息点的文本语义特征。第二子网络通过自注意力机制网络,多头注意力机制网络结合前向网络层和求和标准化模块,基于第二名称信息进行特征提取,得到第二信息点的文本语义特征。

之后,通过拼接模块将第一信息点的文本语义特征和第二信息点的文本语义特征进行拼接,并输入至逻辑回归模型,最终输出表征第一信息点与第二信息点的文本语义相似度的第一相似度特征。

本实施方式中,端到端链指模型中的deep部分通过基于双塔结构的深度语义匹配网络提取第一信息点的文本语义特征和第二信息点的文本语义特征,并基于第一信息点的文本语义特征和第二信息点的文本语义特征输出表征第一信息点与第二信息点的文本语义相似度的第一相似度特征。将deep部分的第一相似度特征与wide部分的第二相似度特征进行融合和交叉,如此,可以将文本语义匹配网络融入至链指模型,最终形成一个端到端链指模型,提高信息点的识别准确率。

另外,端到端链指模型需要预先训练,其训练样本量级可以为上千万级别如1200w,其中,正负例配比可以为1:2,正例样本数量可以为400w,负例样本数量可以为800w。

正例样本来源可以为人工标注数据(即人工标注为正例的样本数据)和地图系统中的链指关系数据,即地图系统的链指聚合组中的数据,负例样本来源可以为人工标注数据(即人工标注为负例的样本数据)、地图系统上的父子关系数据和兄弟关系数据,其中,父子关系数据指的是存在包含关系的不同信息点,如大厦中包括停车场,兄弟关系数据指的是存在并列关系的不同信息点,如不同的两个建筑物。训练之后,即可以基于端到端链指模型进行信息点识别。

第二实施例

如图5所示,本申请提供一种信息点识别装置500,包括:

获取模块501,用于获取第一相似度特征和第二相似度特征;其中,所述第一相似度特征用于表征第一信息点与第二信息点的文本语义相似度,所述第二相似度特征用于表征所述第一信息点与第二信息点在N维度上的N个相似度,N为大于1的正整数;

融合模块502,用于将所述第一相似度特征和第二相似度特征进行融合,得到目标特征;

确定模块503,用于基于所述目标特征,确定所述第一信息点与第二信息点是否为同一信息点。

可选的,其中,N大于2,所述获取模块501包括:

第一获取单元,用于获取所述第一信息点与第二信息点在N维度上的N个相似度;

第二获取单元,用于获取表征每个维度上的相似度的特征信息;

特征融合单元,用于将表征所述N个相似度的多个特征信息进行融合,得到所述第二相似度特征。

可选的,其中,所述N个相似度中包括所述第一信息点与第二信息点在距离维度上的空间相似度,所述第一获取单元,具体用于获取所述第一信息点对应的第一召回距离,所述第二信息点对应的第二召回距离,以及所述第一信息点与第二信息点之间的目标距离;基于所述第一召回距离和所述第二召回距离,对所述目标距离进行归一化,得到所述空间相似度。

可选的,其中,所述第二获取单元,具体用于基于预设离散化步长确定所述空间相似度对应的离散化参数;基于所述离散化参数,确定表征所述空间相似度的特征信息。

可选的,其中,所述获取模块501还包括:

第三获取单元,用于获取所述第一信息点的第一名称信息和所述第二信息点的第二名称信息;

输入单元,用于将所述第一名称信息和第二名称信息输入至文本语义匹配网络;其中,所述文本语义匹配网络包括相互对称的第一子网络和第二子网络,所述第一子网络用于采用注意力机制对所述第一信息点进行特征提取,得到所述第一信息点的文本语义特征,所述第二子网络用于采用注意力机制对所述第二信息点进行特征提取,得到所述第二信息点的文本语义特征;

输出单元,用于基于所述第一信息点的文本语义特征和第二信息点的文本语义特征,输出所述第一相似度特征。

本申请提供的信息点识别装置500能够实现上述信息点识别方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图6所示,是根据本申请实施例的信息点识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的信息点识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的信息点识别方法。

存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的信息点识别方法对应的程序指令/模块(例如,附图5所示的获取模块501、融合模块502和确定模块503)。处理器501通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的信息点识别方法。

存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据本申请实施例的信息点识别方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至信息点识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例的信息点识别方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息,以及产生与本申请实施例的信息点识别方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。

本实施例中,通过将第一相似度特征和第二相似度特征进行融合,得到目标特征,并基于目标特征确定所述第一信息点与第二信息点是否为同一信息点,如此,可以通过特征融合实现一个端到端的链指模型,从而可以统一优化目标,避免优化目标不统一导致的模型优化效果折损,进而可以提高信息点的识别准确率。因此,根据本申请实施例的技术方案,很好地解决了信息点识别技术存在的识别准确率比较低的问题。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

相关技术
  • 信息点识别方法、装置及电子设备
  • 信息点有效性识别方法、装置、设备及存储介质
技术分类

06120112359714