掌桥专利:专业的专利平台
掌桥专利
首页

一种信息聚合方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:01:23


一种信息聚合方法、装置、设备及存储介质

技术领域

本公开涉及信息处理技术领域,尤其涉及一种信息聚合方法、装置、设备及存储介质。

背景技术

目前,很多平台对油站进行信息记录时存在重复记录的情况,比如,同一油站的名称和地址等信息会被不同平台进行记录。然而,由于不同平台存在平台差异以及信息录入存在误差等问题导致同一油站在不同平台被记录的信息不一致,比如,同一油站在不同平台所记录的油站名称不同。而同一油站在不同平台被记录的信息不一致的情况影响了油站信息的准确性,不利于针对油站的跨平台信息合作,更不利于油站电子地图的构建,因此,如何对不同平台记录的油站信息进行去重处理成为了一个亟待解决的问题。

发明内容

本公开提供了一种信息聚合方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面实施例,提供了一种信息聚合方法,所述方法包括:

获取第一平台记录的第一油站的第一油站信息;

基于所述第一油站信息确定第二平台记录的多个第二油站,并获取各个所述第二油站的第二油站信息;

根据所述第一油站信息和所述第二油站信息,确定所述第一油站与各个所述第二油站之间的相似度;

根据所述相似度从各个所述第二油站中确定出与所述第一油站相匹配的各个目标第二油站,并对所述第一油站和各个所述目标第二油站进行聚合。

在一可实施方式中,油站信息包括油站名称、油站地址和油站位置信息;

所述根据所述第一油站信息和所述第二油站信息,确定所述第一油站与各个所述第二油站之间的相似度,包括:

确定所述第一油站的油站名称与各个所述第二油站的油站名称之间的名称相似度;

确定所述第一油站的油站地址与各个所述第二油站的油站地址之间的地址相似度;

基于所述第一油站的油站位置信息和各个所述第二油站的油站位置信息,确定所述第一油站与各个所述第二油站之间的距离相似度;

根据所述名称相似度、所述地址相似度和所述距离相似度,计算所述第一油站与各个所述第二油站之间的相似度。

在一可实施方式中,所述确定所述第一油站的油站名称与各个所述第二油站的油站名称之间的名称相似度,包括:

对所述第一油站的油站名称进行分词,得到至少两个第一分词;

对所述第二油站的油站名称进行分词,得到至少两个第二分词;

针对每个所述第二油站,确定该第二油站对应的各个所述第二分词中与第一分词或第一分词的等价分词相同的第二分词的第一数量,其中,第一分词的等价分词为预设分词库中记录的与第一分词表示相同含义的词组;

将第一数量与第二数量的比值确定为所述第一油站的油站名称与该第二油站的油站名称之间的名称相似度,其中,第二数量为该第二油站的第二分词的数量。

在一可实施方式中,在所述根据所述相似度从各个所述第二油站中确定出与所述第一油站相匹配的各个目标第二油站之前,所述方法还包括:

针对每个所述第二油站,若第一分词中存在表示目标方向的方向分词,确定该第二油站对应的各个第二分词中是否存在所表示的方向与所述目标方向相反的第二分词;

如果存在,将所述第一油站与该第二油站之间的相似度确定为0。

在一可实施方式中,所述基于所述第一油站的油站位置信息和各个所述第二油站的油站位置信息,确定所述第一油站与各个所述第二油站之间的距离相似度,包括:

根据所述第一油站的油站位置信息和各个所述第二油站的油站位置信息,计算所述第一油站和各个所述第二油站之间的距离;

针对每个所述第二油站,根据预设距离和所述第一油站和该第二油站之间的距离,确定所述第一油站与该第二油站之间的距离相似度。

在一可实施方式中,所述根据所述名称相似度、所述地址相似度和所述距离相似度,计算所述第一油站与各个所述第二油站之间的相似度,包括:

针对每个所述第二油站,若所述第一油站与该第二油站之间的名称相似度不小于预设名称相似度阈值,将所述名称相似度确定为所述第一油站与该第二油站之间的相似度;或者,

若所述第一油站与该第二油站之间的地址相似度不小于预设地址相似度阈值,将所述地址相似度确定为所述第一油站与该第二油站之间的相似度;或者,

若所述第一油站与该第二油站之间的距离相似度不小于预设距离相似度阈值,将所述距离相似度确定为所述第一油站与该第二油站之间的相似度。

在一可实施方式中,所述根据所述名称相似度、所述地址相似度和所述距离相似度,计算所述第一油站与各个所述第二油站之间的相似度,包括:

针对每个所述第二油站,计算所述第一油站与该第二油站之间的名称相似度与第一预设权重的乘积、所述第一油站与该第二油站之间的地址相似度与第二预设权重的乘积以及所述第一油站与该第二油站之间的距离相似度与第三预设权重的乘积的和值,将所述和值确定为所述第一油站与该第二油站之间的相似度。

在一可实施方式中,油站信息包括油站身份标识信息,所述根据所述第一油站信息和所述第二油站信息,确定所述第一油站与各个所述第二油站之间的相似度,包括:

针对每个所述第二油站,确定第一油站的油站身份标识信息与该第二油站的油站身份标识信息是否一致;

如果是,确定所述第一油站与该第二油站之间的相似度为指定相似度,所述指定相似度大于预设相似度阈值。

在一可实施方式中,所述根据所述相似度从各个所述第二油站中确定出与所述第一油站相匹配的各个目标第二油站,包括:

针对每个所述第二油站,若所述第一油站与该第二油站之间的相似度大于预设相似度阈值,将该第二油站确定为与所述第一油站相匹配的目标第二油站。

在一可实施方式中,所述对所述第一油站和各个所述目标第二油站进行聚合,包括:

确定预设油站聚合信息数据库中是否存在所述第一油站和所述目标第二油站关联的聚合标识信息;

如果否,为所述第一油站和所述目标第二油站创建目标聚合标识,并将所述目标聚合标识与所述第一油站和所述目标第二油站进行关联,得到所述第一油站和所述目标第二油站对应的第一聚合油站簇。

在一可实施方式中,所述方法还包括:

如果存在所述第一油站和所述目标第二油站关联的聚合标识信息,获取与所述聚合标识信息相关联的各个第三油站的第三油站信息;

根据所述第一油站信息和所述第三油站信息,确定各个所述第三油站中与所述第一油站相匹配的目标第三油站;

将所述第一油站、所述目标第二油站和所述目标第三油站聚合至第二聚合油站簇。

在一可实施方式中,所述获取第一平台记录的第一油站的第一油站信息,包括:

获取第一平台记录的第一油站的油站名称、油站地址和经纬度信息;

根据所述经纬度信息确定所述第一油站的油站位置信息;

对所述油站名称、所述油站地址和所述油站位置信息进行结构化处理,得到所述第一油站的第一油站信息。

在一可实施方式中,油站信息包括油站的位置;

所述基于所述第一油站信息确定第二平台记录的多个第二油站,包括:

以所述第一油站的位置为圆心以预设距离为半径确定出目标选取范围;

将第二平台记录的油站中在所述目标选取范围内的油站确定为第二油站。

根据本公开的第二方面实施例,提供了一种信息聚合装置,所述装置包括:

第一信息获取模块,用于获取第一平台记录的第一油站的第一油站信息;

第二信息获取模块,用于基于所述第一油站信息确定第二平台记录的多个第二油站,并获取各个所述第二油站的第二油站信息;

相似度确定模块,用于根据所述第一油站信息和所述第二油站信息,确定所述第一油站与各个所述第二油站之间的相似度;

信息聚合模块,用于根据所述相似度从各个所述第二油站中确定出与所述第一油站相匹配的各个目标第二油站,并对所述第一油站和各个所述目标第二油站进行聚合。

根据本公开的第三方面实施例,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开实施例的信息聚合方法、装置、设备及存储介质,获取第一平台记录的第一油站的第一油站信息;基于第一油站信息确定第二平台记录的多个第二油站,并获取各个第二油站的第二油站信息;根据第一油站信息和第二油站信息,确定第一油站与各个第二油站之间的相似度;根据相似度从各个第二油站中确定出与第一油站相匹配的各个目标第二油站,并对第一油站和各个目标第二油站进行聚合。即通过确定不同平台记录的第一油站的油站信息确定出相匹配的油站,并将相配的油站进行聚合,实现对重复记录的油站进行去重,从而保证了油站信息的准确性,也使得利用油站信息构建的油站电子地图更准确。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:

在附图中,相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例提供的信息聚合方法的一种流程示意图;

图2示出了本公开实施例提供的一种确定相似度的流程示意图;

图3示出了本公开实施例提供的信息聚合装置的一种结构示意图;

图4示出了本公开实施例提供的一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

由于目前平台对油站进行信息记录时存在的重复记录的情况影响了油站信息的准确性,不利于油站电子地图的构建,因此,为了给油站信息进行去重,提高油站信息的准确性,本公开提供了一种信息聚合方法、装置、设备及存储介质。本公开提供的信息聚合方法可以应用于任何可以进行数据处理的电子设备,包括不限于电脑、手机和平板电脑等。

下面将结合本公开实施例中的附图,对本公开实施例的技术方案进行描述。

图1示出了本公开实施例提供的信息聚合方法的一种流程示意图,如图1所示,所述方法包括:

S101,获取第一平台记录的第一油站的第一油站信息。

本公开中,第一平台可以为指定的加油平台,例如,第一平台可以为A公司开发的加油平台A,加油平台A构建了包括多个加油站的加油站电子地图,加油平台A构建的加油站电子地图中不仅包括A公司所属的加油站还包括其他公司所属的加油站。油站为加油站。

油站信息可以包括油站名称、油站地址、油站位置信息和油站身份标识信息等。其中,油站名称可以是加油站的站名,或者,油站名称可以包括加油站的站名以及加油站商户名称和/或加油站站长名称。油站地址可以为加油平台中记录的油站地址信息,例如,加油平台记录了油站A的地址为X省Y市Z区M街道602,则油站A的油站地址为“X省Y市Z区M街道602”。油站位置信息可以由加油站所在位置对应的经纬度信息确定出。油站身份标识信息指加油站对应的统一信用代码ID。

在一种可能的实施方式中,所述获取第一平台记录的第一油站的第一油站信息,可以包括步骤A1-A3:

步骤A1,获取第一平台记录的第一油站的油站名称、油站地址和经纬度信息。

步骤A2,根据所述经纬度信息确定所述第一油站的油站位置信息。

具体的,逆地理编码表征了经纬度坐标与地理坐标之间的对应关系,本公开中可以通过逆地理编码,逆向确定出第一油站的经纬度信息所对应的地理坐标,将该地理坐标对应的地理位置名称作为第一油站的油站位置信息。

步骤A3,对所述油站名称、所述油站地址和所述油站位置信息进行结构化处理,得到所述第一油站的第一油站信息。

本公开中,可以对各个油站的油站信息中油站名称、油站地址和油站位置信息的表达形式进行统一处理得到对应的结构化信息,例如,油站地址可以统一为某省(市)某市某区某街道。举例说明,第一油站A的油站名称为XY油站,第一油站A的油站地址为北京市朝阳区M街道,第一油站A的油站位置信息为北京市朝阳区M街道603,第一油站B的油站名称为LN油站,第一油站B的油站地址为河北省石家庄市X区G街道,第一油站B的油站位置信息为河北省石家庄市X区G街道301。则可以确定第一油站A的结构化信息为“油站名称:XY油站;油站地址:北京市(省)北京市朝阳区M街道;油站位置信息:北京市(省)北京市朝阳区M街道603”,第一油站B的结构化信息为“油站名称:LN油站;油站地址:河北省石家庄市X区G街道;油站位置信息:河北省石家庄市X区G街道301”。

S102,基于所述第一油站信息确定第二平台记录的多个第二油站,并获取各个所述第二油站的第二油站信息。

本公开中,第二平台是不同于第一平台的加油站平台,第二平台可以包括一个加油站平台也可以包括多个加油站平台。

在一种可能的实施方式中,油站信息包括油站的位置,所述基于所述第一油站信息确定第二平台记录的多个第二油站,包括步骤B1-B2:

步骤B1,以所述第一油站的位置为圆心以预设距离为半径确定出目标选取范围。

其中,预设距离可以根据实际应用场景进行设定,例如,可以设定为1千米或2千米。

步骤B2,将第二平台记录的油站中在所述目标选取范围内的油站确定为第二油站。

具体的,可以获取第二平台记录的油站的地址信息,根据该地址信息计算第二平台记录的油站与第一油站之间的距离,如果距离不大于预设距离则将第二平台记录的该油站确定为第二油站。或者,也可以获取第二平台记录的油站的经纬度信息,根据经纬度信息确定出第二平台记录的油站的位置信息,然后可以根据位置信息计算第二平台记录的油站与第一油站之间的距离,如果距离不大于预设距离则将第二平台记录的该油站确定为第二油站。

S103,根据所述第一油站信息和所述第二油站信息,确定所述第一油站与各个所述第二油站之间的相似度。

S104,根据所述相似度从各个所述第二油站中确定出与所述第一油站相匹配的各个目标第二油站,并对所述第一油站和各个所述目标第二油站进行聚合。

本公开中,与第一油站相匹配的各个目标第二油站是指与第一油站为同一个油站的油站。

在一种可能的实施方式中,所述根据所述相似度从各个所述第二油站中确定出与所述第一油站相匹配的各个目标第二油站,可以包括:针对每个所述第二油站,若所述第一油站与该第二油站之间的相似度大于预设相似度阈值,将该第二油站确定为与所述第一油站相匹配的目标第二油站,表示第一油站与目标第二油站是同一个油站。其中,预设相似度阈值通常设置为[0.9,1]之间的数值。

采用本公开实施例提供的信息聚合方法,获取第一平台记录的第一油站的第一油站信息;基于第一油站信息确定第二平台记录的多个第二油站,并获取各个第二油站的第二油站信息;根据第一油站信息和第二油站信息,确定第一油站与各个第二油站之间的相似度;根据相似度从各个第二油站中确定出与第一油站相匹配的各个目标第二油站,并对第一油站和各个目标第二油站进行聚合。即通过确定不同平台记录的第一油站的油站信息确定出相匹配的油站,并将相配的油站进行聚合,实现对重复记录的油站进行去重,从而保证了油站信息的准确性,也使得利用油站信息构建的油站电子地图更准确。

在一种可实施方式中,油站信息包括油站名称、油站地址和油站位置信息,图2示出了本公开实施例提供的一种确定相似度的流程示意图,如图2所示,所述根据所述第一油站信息和所述第二油站信息,确定所述第一油站与各个所述第二油站之间的相似度,包括:

S201,确定所述第一油站的油站名称与各个所述第二油站的油站名称之间的名称相似度。

在一种可能的实施方式中,所述确定所述第一油站的油站名称与各个所述第二油站的油站名称之间的名称相似度,可以包括步骤C1-C3:

步骤C1,对所述第一油站的油站名称进行分词,得到至少两个第一分词。

具体的,可以将油站名称中包含的表征行政区域的词、表征方位的词等进行分词,例如,若第一油站名称为北京市朝阳区XY加油站,则可以对“北京市朝阳区XY加油站”进行分词,得到第一分词“北京市”、“朝阳区”和“XY加油站”。

步骤C2,对所述第二油站的油站名称进行分词,得到至少两个第二分词。

例如,若第二油站名称为北京市朝阳区XY加油点,则可以对“北京市朝阳区XY加油点”进行分词,得到第二分词“北京市”、“朝阳区”和“XY加油点”。

步骤C3,针对每个所述第二油站,确定该第二油站对应的各个所述第二分词中与第一分词或第一分词的等价分词相同的第二分词的第一数量。

其中,第一分词的等价分词为预设分词库中记录的与第一分词表示相同含义的词组。预设分词库中存储了分词以及各个分词关联的等价分词。例如,“加油站”与“加油点”、“加油”等词组可以表示相同含义,因此,预设分词库存储了词组“加油站”的等价词组包括“加油点”和“加油”等。

本步骤中,该第二油站对应的每个第二分词,可以查找是否有第一分词或第一分词的等价分词与该第二分词相同,例如,若第二分词为“XY加油点”,第一分词包括“北京市”、“朝阳区”和“XY加油站”,可以查找到第二分词为“XY加油点”与第一分词“XY加油站”的等价分词相同。

步骤C4,将第一数量与第二数量的比值确定为所述第一油站的油站名称与该第二油站的油站名称之间的名称相似度。

其中,第二数量为该第二油站的第二分词的数量。

举例说明,若第一分词包括“北京市”、“朝阳区”和“XY加油站”,第二分词包括“北京市”、“朝阳区”和“XY加油点”,其中,第二分词的数量即第二数量为3,可以确定出第二分词“北京市”与第一分词“北京市”相同、第二分词“朝阳区”和第一分词“朝阳区”相同,第二分词“XY加油点”和第一分词“XY加油站”的等价分词相同,即第二分词中与第一分词或第一分词的等价分词相同的第二分词的第一数量为3,则可以计算出第一油站的油站名称与该第二油站的油站名称之间的名称相似度为1。

S202,确定所述第一油站的油站地址与各个所述第二油站的油站地址之间的地址相似度。

在一种可能的实施方式中,可以对第一油站的油站地址进行分词,得到至少两个第一地址分词;对第二油站的油站地址进行分词,得到至少两个第二地址分词;针对每个第二油站,确定该第二油站对应的各个第二地址分词中与第一地址分词或第一地址分词的等价分词相同的第二地址分词的第三数量;将第三数量与第四数量的比值确定为第一油站的油站地址与该第二油站的油站地址之间的地址相似度,其中,第四数量为该第二油站的第二地址分词的数量。

本公开中,若第一油站的油站地址和第二油站的油站地址中存在“省、市、区”等行政区域划分词,则可以按标准的省市区对油站地址进行补全,如果不存在“省、市、区”,则可以去除省市区。

举例说明,若第一地址分词包括“北京市”、“朝阳区”和“M街道”,第二地址分词包括“北京市”、“朝阳区”和“Y街道”,其中,第二地址分词的数量即第三数量为3,可以确定出第二地址分词“北京市”与第一地址分词“北京市”相同、第二地址分词“朝阳区”和第一地址分词“朝阳区”相同,第二地址分词“Y街道”和第一地址分词“M街道”及各个第一地址分词的等价分词均不相同,即第二地址分词中与第一地址分词或第一地址分词的等价分词相同的第二地址分词的第三数量为2,则可以计算出第一油站的油站地址与该第二油站的油站地址之间的地址相似度为0.67。

S203,基于所述第一油站的油站位置信息和各个所述第二油站的油站位置信息,确定所述第一油站与各个所述第二油站之间的距离相似度。

在一种可能的实施方式中,所述基于所述第一油站的油站位置信息和各个所述第二油站的油站位置信息,确定所述第一油站与各个所述第二油站之间的距离相似度,包括步骤D1-D2:

步骤D1,根据所述第一油站的油站位置信息和各个所述第二油站的油站位置信息,计算所述第一油站和各个所述第二油站之间的距离。

具体的,可以计算第一油站的油站位置信息中第一油站的地理位置坐标和各个第二油站的油站位置信息中第二油站的地理位置坐标之间的直线距离,作为第一油站和各个第二油站之间的距离。

步骤D2,针对每个所述第二油站,根据预设距离和所述第一油站和该第二油站之间的距离,确定所述第一油站与该第二油站之间的距离相似度。

例如,可以采用如下公式计算第一油站与该第二油站之间的距离相似度S3:

S3=(L-L1)*b/h

其中,L为预设距离,L1为第一油站和第二油站之间的距离,b为预设分数参数,h为当第一油站和第二油站之间的距离为预设距离时对应的最大预设分数。预设距离用于表示第一油站和各个第二油站之间的最大距离,距离的单位为米,若预设距离L设置为1000米,即第一油站和各个第二油站之间的最大距离1000米,b设置为0.09,则(L-L1)*b表示第一油站和各个第二油站之间距离相比最大距离1000米每减少1米所降低的分数,h可以设置为L与b的乘积。

举例说明,若预设距离L设置为1000米,预设分数参数b设置为0.09,h设置为L与b的乘积90,当确定出计算第一油站Y1和第二油站Y1之间的距离L1为980米时,可以将各个参数代入距离相似度计算公式,计算出第一油站Y1和第二油站Y1之间的距离相似度S3=(L-L1)*b/h=(1000-980)*0.09/90=0.02,即第一油站Y1和第二油站Y1之间的距离相似度为0.02。

再举例说明,若预设距离L设置为1000米,预设分数参数b设置为0.1,h设置为L与b的乘积100,当确定出计算第一油站Y3和第二油站Y4之间的距离L1为20米时,可以将各个参数代入距离相似度计算公式,计算出第一油站Y3和第二油站Y4之间的距离相似度S3=(L-L1)*b/h=(1000-20)*0.1/100=0.98,即第一油站Y3和第二油站Y4之间的距离相似度为0.98。

S204,根据所述名称相似度、所述地址相似度和所述距离相似度,计算所述第一油站与各个所述第二油站之间的相似度。

在一种可能的实施方式中,所述根据所述名称相似度、所述地址相似度和所述距离相似度,计算所述第一油站与各个所述第二油站之间的相似度,可以包括:针对每个所述第二油站,计算所述第一油站与该第二油站之间的名称相似度与第一预设权重的乘积、所述第一油站与该第二油站之间的地址相似度与第二预设权重的乘积以及所述第一油站与该第二油站之间的距离相似度与第三预设权重的乘积的和值,将所述和值确定为所述第一油站与该第二油站之间的相似度。

其中,第一预设权重、第二预设权重和第三预设权重之和为1。由于距离越近的两个油站越有可能表示同一个油站,因此,相较于第一预设权重和第二预设权重,可以将距离对应的第三预设权重设置得更大一些,例如,第一预设权重、第二预设权重和第三预设权重可以分别设置为0.15、0.1和0.75。

在另一种可能的实施方式中,所述根据所述名称相似度、所述地址相似度和所述距离相似度,计算所述第一油站与各个所述第二油站之间的相似度,可以包括步骤E1-E3:

步骤E1,针对每个所述第二油站,若所述第一油站与该第二油站之间的名称相似度不小于预设名称相似度阈值,将所述名称相似度确定为所述第一油站与该第二油站之间的相似度。

预设名称相似度阈值可以设置[0.99,1]之间的数值。若第一油站与第二油站之间的名称相似度不小于预设名称相似度阈值,表示第一油站的油站名称与第二油站的油站名称一致,则可以表示第一油站和第二油站是同一个油站。

步骤E2,若所述第一油站与该第二油站之间的地址相似度不小于预设地址相似度阈值,将所述地址相似度确定为所述第一油站与该第二油站之间的相似度。

预设地址相似度阈值可以设置[0.99,1]之间的数值。若第一油站与第二油站之间的地址相似度不小于预设地址相似度阈值,表示第一油站的油站地址与第二油站的油站地址一致,则可以表示第一油站和第二油站是同一个油站。

步骤E3,若所述第一油站与该第二油站之间的距离相似度不小于预设距离相似度阈值,将所述距离相似度确定为所述第一油站与该第二油站之间的相似度。

预设距离相似度阈值可以设置[0.98,1]之间的数值。若第一油站与第二油站之间的距离相似度不小于预设距离相似度阈值,表示第一油站与第二油站之间的距离极近,例如,第一油站与第二油站相距20米以内,而通常情况下不会在20米内设置两个油站,因此,若第一油站与第二油站相距20米以内则代表第一油站和第二油站是同一个油站。

在一种可能的实施方式中,在所述根据所述相似度从各个所述第二油站中确定出与所述第一油站相匹配的各个目标第二油站之前,所述方法还包括步骤F1-F2:

步骤F1,针对每个所述第二油站,若第一分词中存在表示目标方向的方向分词,确定该第二油站对应的各个第二分词中是否存在所表示的方向与所述目标方向相反的第二分词。

步骤F2,如果存在,将所述第一油站与该第二油站之间的相似度确定为0。

表示目标方向的方向分词可以包括东、西、南、北等分词。例如,若第一油站对应的第一分词包括“北京市”、“朝阳区”和“XX东加油站”,第二油站对应的第二分词包括“北京市”、“朝阳区”和“XX西加油站”,可以确定出第二油站对应的第二分词“XX西加油站”所表示的方向与第一分词“XX东加油站”所表示的方向相反,则可以确定出第一油站和第二油站是两个不同的油站,因此,可以将第一油站与第二油站之间的相似度确定为0。

在一种可实施方式中,油站信息包括油站身份标识信息,所述根据所述第一油站信息和所述第二油站信息,确定所述第一油站与各个所述第二油站之间的相似度,可以包括步骤G1-G2:

步骤G1,针对每个所述第二油站,确定第一油站的油站身份标识信息与该第二油站的油站身份标识信息是否一致。

步骤G2,如果是,确定所述第一油站与该第二油站之间的相似度为指定相似度,所述指定相似度大于预设相似度阈值。

预设相似度阈值通常设置为[0.9,1]之间的数值,指定相似度大于预设相似度阈值,例如,若预设相似度阈值通常设置为0.9,指定相似度可以设置为0.99或1。

本公开中,油站身份标识信息可以是加油站对应的统一信用代码ID。具体的,可以获取平台记录的油站的营业执照图像,对营业执照图像进行OCR(Optical CharacterRecognition,光学字符识别)识别,得到油站对应的获取统一信用代码ID。

如果确定出第一油站的统一信用代码ID与第二油站的统一信用代码ID一致,则可以将第一油站与第二油站之间的相似度确定为指定相似度,表明第一油站和第二油站是同一个油站。

在一种可实施方式中,所述对所述第一油站和各个所述目标第二油站进行聚合,可以包括步骤H1-H2:

步骤H1,确定预设油站聚合信息数据库中是否存在所述第一油站和所述目标第二油站关联的聚合标识信息。

本公开中,可以将各个平台上记录的表示同一个油站的各个油站的信息进行聚合,可以为表示同一个油站的各个油站创建唯一物理ID,并将该唯一为例ID作为聚合标识信息与表示同一个油站的各个油站相关联,使得表示同一个油站的各个油站可以形成一个聚合油站簇。并且,可以将表示同一个油站的各个油站与该唯一物理ID的关联关系存储至预设油站聚合信息数据库中。

因此,本步骤中,在确定出目标第二油站后,可以在预设油站聚合信息数据库中查询第一油站和各个目标第二油站是否存在关联的唯一物理ID,如果不存在,表示第一油站和各个目标第二油站不属于其他聚合油站簇,则可以将第一油站和各个目标第二油站聚合成新的聚合油站簇。

步骤H2,如果否,为所述第一油站和所述目标第二油站创建目标聚合标识,并将所述目标聚合标识与所述第一油站和所述目标第二油站进行关联,得到所述第一油站和所述目标第二油站对应的第一聚合油站簇。

具体的,可以创建新的唯一物理ID作为第一油站和各个目标第二油站对应的目标聚合标识,将目标聚合标识与第一油站和各个目标第二油站进行关联,得到第一聚合油站簇,并将第一聚合油站簇中各个油站与目标聚合标识存储至预设油站聚合信息数据库。第一聚合油站簇所关联的多个油站均表示同一个油站,即可以通过聚合油站的方式实现对平台重复记录的油站的去重处理。

在一种可能的实施方式中,所述对所述第一油站和各个所述目标第二油站进行聚合,还可以包括步骤H3-H5:

步骤H3,如果存在所述第一油站和所述目标第二油站关联的聚合标识信息,获取与所述聚合标识信息相关联的各个第三油站的第三油站信息。

例如,目标第二油站预先关联聚合标识信息“X1Y1Z1”,则可以从预设油站聚合信息数据库中查找与聚合标识信息“X1Y1Z1”关联的其他油站,作为第三油站,并获取第三油站的第三油站信息,第三油站信息的获取过程参照上述第一油站信息获取过程,此处不再赘述。

步骤H4,根据所述第一油站信息和所述第三油站信息,确定各个所述第三油站中与所述第一油站相匹配的目标第三油站。

目标第三油站的确定过程参照目标第二油站的确定过程,此处不再赘述。

步骤H5,将所述第一油站、所述目标第二油站和所述目标第三油站聚合至第二聚合油站簇。

本公开中,在确定出目标第三油站后,可以解除目标第三油站预先关联的聚合标识信息,然后,可以为第一油站、各个目标第二油站和各个目标第三油站创建新的唯一物理ID,作为第一油站、各个目标第二油站和各个目标第三油站对应的目标聚合标识,将目标聚合标识与第一油站、各个目标第二油站和各个目标第三油站进行关联,得到第二聚合油站簇,并将第二聚合油站簇中各个油站与目标聚合标识存储至预设油站聚合信息数据库。第二聚合油站簇关联的多个油站均表示同一个油站。

采用该方法,通过对同一物理站的油站信息进行自动聚合,能够平台对重复记录的油站去重,保证了油站信息的准确性,提高了利用油站信息构建的油站电子地图的准确性,并且,准确的油站信息还能够保证对指定平台的油站的市占率的统计准确性。

基于同一发明构思,根据本公开上述实施例提供的信息聚合方法,相应地,本公开另一实施例还提供了一种信息聚合装置,其结构示意图如图3所示,具体包括:

第一信息获取模块301,用于获取第一平台记录的第一油站的第一油站信息;

第二信息获取模块302,用于基于所述第一油站信息确定第二平台记录的多个第二油站,并获取各个所述第二油站的第二油站信息;

相似度确定模块303,用于根据所述第一油站信息和所述第二油站信息,确定所述第一油站与各个所述第二油站之间的相似度;

信息聚合模块304,用于根据所述相似度从各个所述第二油站中确定出与所述第一油站相匹配的各个目标第二油站,并对所述第一油站和各个所述目标第二油站进行聚合。

采用本公开实施例提供的信息聚合装置,获取第一平台记录的第一油站的第一油站信息;基于第一油站信息确定第二平台记录的多个第二油站,并获取各个第二油站的第二油站信息;根据第一油站信息和第二油站信息,确定第一油站与各个第二油站之间的相似度;根据相似度从各个第二油站中确定出与第一油站相匹配的各个目标第二油站,并对第一油站和各个目标第二油站进行聚合。即通过确定不同平台记录的第一油站的油站信息确定出相匹配的油站,并将相配的油站进行聚合,实现对重复记录的油站进行去重,从而保证了油站信息的准确性,也使得利用油站信息构建的油站电子地图更准确。

在一可实施方式中,油站信息包括油站名称、油站地址和油站位置信息;

所述相似度确定模块303,具体用于确定所述第一油站的油站名称与各个所述第二油站的油站名称之间的名称相似度;确定所述第一油站的油站地址与各个所述第二油站的油站地址之间的地址相似度;基于所述第一油站的油站位置信息和各个所述第二油站的油站位置信息,确定所述第一油站与各个所述第二油站之间的距离相似度;根据所述名称相似度、所述地址相似度和所述距离相似度,计算所述第一油站与各个所述第二油站之间的相似度。

在一可实施方式中,所述相似度确定模块303,具体用于对所述第一油站的油站名称进行分词,得到至少两个第一分词;对所述第二油站的油站名称进行分词,得到至少两个第二分词;针对每个所述第二油站,确定该第二油站对应的各个所述第二分词中与第一分词或第一分词的等价分词相同的第二分词的第一数量,其中,第一分词的等价分词为预设分词库中记录的与第一分词表示相同含义的词组;将第一数量与第二数量的比值确定为所述第一油站的油站名称与该第二油站的油站名称之间的名称相似度,其中,第二数量为该第二油站的第二分词的数量。

在一可实施方式中,所述相似度确定模块303,具体还用于针对每个所述第二油站,若第一分词中存在表示目标方向的方向分词,确定该第二油站对应的各个第二分词中是否存在所表示的方向与所述目标方向相反的第二分词;如果存在,将所述第一油站与该第二油站之间的相似度确定为0。

在一可实施方式中,所述相似度确定模块303,具体用于根据所述第一油站的油站位置信息和各个所述第二油站的油站位置信息,计算所述第一油站和各个所述第二油站之间的距离;针对每个所述第二油站,根据预设距离和所述第一油站和该第二油站之间的距离,确定所述第一油站与该第二油站之间的距离相似度。

在一可实施方式中,所述相似度确定模块303,具体用于针对每个所述第二油站,若所述第一油站与该第二油站之间的名称相似度不小于预设名称相似度阈值,将所述名称相似度确定为所述第一油站与该第二油站之间的相似度;或者,若所述第一油站与该第二油站之间的地址相似度不小于预设地址相似度阈值,将所述地址相似度确定为所述第一油站与该第二油站之间的相似度;或者,若所述第一油站与该第二油站之间的距离相似度不小于预设距离相似度阈值,将所述距离相似度确定为所述第一油站与该第二油站之间的相似度。

在一可实施方式中,所述相似度确定模块303,具体用于针对每个所述第二油站,计算所述第一油站与该第二油站之间的名称相似度与第一预设权重的乘积、所述第一油站与该第二油站之间的地址相似度与第二预设权重的乘积以及所述第一油站与该第二油站之间的距离相似度与第三预设权重的乘积的和值,将所述和值确定为所述第一油站与该第二油站之间的相似度。

在一可实施方式中,油站信息包括油站身份标识信息;所述相似度确定模块303,具体用于针对每个所述第二油站,确定第一油站的油站身份标识信息与该第二油站的油站身份标识信息是否一致;如果是,确定所述第一油站与该第二油站之间的相似度为指定相似度,所述指定相似度大于预设相似度阈值。

在一可实施方式中,所述信息聚合模块304,具体用于针对每个所述第二油站,若所述第一油站与该第二油站之间的相似度大于预设相似度阈值,将该第二油站确定为与所述第一油站相匹配的目标第二油站。

在一可实施方式中,所述信息聚合模块304,具体用于确定预设油站聚合信息数据库中是否存在所述第一油站和所述目标第二油站关联的聚合标识信息;如果否,为所述第一油站和所述目标第二油站创建目标聚合标识,并将所述目标聚合标识与所述第一油站和所述目标第二油站进行关联,得到所述第一油站和所述目标第二油站对应的第一聚合油站簇。

在一可实施方式中,所述信息聚合模块304,具体还用于如果存在所述第一油站和所述目标第二油站关联的聚合标识信息,获取与所述聚合标识信息相关联的各个第三油站的第三油站信息;根据所述第一油站信息和所述第三油站信息,确定各个所述第三油站中与所述第一油站相匹配的目标第三油站;将所述第一油站、所述目标第二油站和所述目标第三油站聚合至第二聚合油站簇。

在一可实施方式中,所述第一信息获取模块301,具体用于获取第一平台记录的第一油站的油站名称、油站地址和经纬度信息;根据所述经纬度信息确定所述第一油站的油站位置信息;对所述油站名称、所述油站地址和所述油站位置信息进行结构化处理,得到所述第一油站的第一油站信息。

在一可实施方式中,油站信息包括油站的位置;

所述第二信息获取模块302,具体用于以所述第一油站的位置为圆心以预设距离为半径确定出目标选取范围;将第二平台记录的油站中在所述目标选取范围内的油站确定为第二油站。

采用该装置,通过对同一物理站的油站信息进行自动聚合,能够平台对重复记录的油站去重,保证了油站信息的准确性,提高了利用油站信息构建的油站电子地图的准确性,并且,准确的油站信息还能够保证对指定平台的油站的市占率的统计准确性。

根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。

图4示出了可以用来实施本公开的实施例的示例电子电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示,电子设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储电子设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

电子设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如信息聚合方法。例如,在一些实施例中,信息聚合方法可被实现为计算机软件程序,其被有形地包含于可读存储介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到电子设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的信息聚合方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息聚合方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。可读存储介质可以是机器可读信号介质或机器可读储存介质。可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 空气调节器及其控制方法、装置和计算机可读存储介质
  • 空气调节器及其控制方法、装置和计算机可读存储介质
  • 空气调节器及其控制方法、装置和计算机可读存储介质
  • 空气调节器及其控制方法、装置和计算机可读存储介质
  • 空气调节器及其控制方法、装置和计算机可读存储介质
  • 商用车主挂间隙调节器控制方法、装置和计算机设备
  • 商用车主、副油箱控制方法、装置、设备及可读存储介质
技术分类

06120116552042