导航：首页> 输送；包装；贮存；搬运薄的或细丝状材料>一种车辆充电点的数据去重方法和装置

一种车辆充电点的数据去重方法和装置

文献发布时间：2023-06-19 11:35:49

技术领域

本发明涉及车辆技术领域，特别是涉及一种车辆充电点的数据去重方法和装置。

背景技术

当电动汽车需要充电时，电动汽车车主需要搜索附近充电站，以便确定附近有哪些充电站，充电站运营商和充电站数据聚合商为了给车主提供更全面的充电站信息，可以从不同渠道获取充电站数据，但是，这些充电站数据可能存在重复，部分充电站数据实际上是指向同一充电站，造成充电站数据冗余，从而在车主检索充电站时造成困扰，不方便车主快速确定搜索区域的充电站分布信息。

发明内容

鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的一种车辆充电点的数据去重方法和装置，包括：

一种车辆充电点的数据去重方法，所述方法包括：

获取多个位置信息，每个位置信息对应一充电点对象；

分别对所述多个位置信息进行编码，得到编码信息，并按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集；

分别获取每个充电点对象集所包含的充电点对象对应的描述信息；

采用预先训练的数据模型，根据所述描述信息，对每个充电点对象集所包含的充电点对象进行去重。

可选地，所述采用预先训练的数据模型，根据所述描述信息，对每个充电点对象集所包含的充电点对象进行去重，包括：

针对每个充电点对象集，确定两个候选充电点对象；

采用预先训练的数据模型，根据所述描述信息，判断所述两个候选充电点对象是否对应同一充电点；

在所述两个候选充电点对象对应同一充电点时，对所述两个候选充电点进行去重。

可选地，所述采用预先训练的数据模型，根据所述描述信息，判断所述两个候选充电点对象是否对应同一充电点，包括：

根据所述描述信息，确定针对所述两个候选充电点对象的特征向量；

将所述特征向量输入预先训练的数据模型，并接收所述数据模型输出的针对所述两个候选充电点对象的匹配概率；

在所述匹配概率大于预设概率时，判定所述两个候选充电点对象对应同一充电点。

可选地，所述根据所述描述信息，确定针对所述两个候选充电点对象的特征向量，包括：

根据所述描述信息，确定针对所述两个候选充电点对象的关键信息；

根据所述关键信息，生成针对所述两个候选充电点对象的特征向量。

可选地，所述按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集，包括：

从所述多个位置信息对应的充电点对象中，确定具有相同编码信息的充电点对象；

将具有相同编码信息的充电点对象划分为同一个充电点对象集。

可选地，还包括：

针对每个充电点对象集，从去重后的充电点对象中，确定不超过预设数量的充电点对象。

可选地，所述关键信息包括以下任一项或多项：

编辑距离信息、杰拉德系数信息、词频-逆文本频率指数相似度、服务区信息。

一种车辆充电点的数据去重装置，所述装置包括：

位置信息获取模块，用于获取多个位置信息，每个位置信息对应一充电点对象；

充电点对象集划分模块，用于分别对所述多个位置信息进行编码，得到编码信息，并按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集；

描述信息获取模块，用于分别获取每个充电点对象集所包含的充电点对象对应的描述信息；

去重模块，用于采用预先训练的数据模型，根据所述描述信息，对每个充电点对象集所包含的充电点对象进行去重。

一种车辆，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的车辆充电点的数据去重方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述车辆充电点的数据去重方法。

本发明实施例具有以下优点：

本发明实施例通过获取多个位置信息，每个位置信息对应一充电点对象，分别对所述多个位置信息进行编码，得到编码信息，并按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集，分别获取每个充电点对象集所包含的充电点对象对应的描述信息，用预先训练的数据模型，根据所述描述信息，对每个充电点对象集所包含的充电点对象进行去重，实现了对多个充电点数据去重，有利于车主快速检索充电点。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种车辆充电点的数据去重方法的步骤流程图；

图2是本发明一实施例提供的另一种车辆充电点的数据去重方法的步骤流程图；

图3是本发明一实施例提供的一种车辆充电点的数据去重装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明一实施例提供的一种车辆充电点的数据去重方法的步骤流程图，具体可以包括如下步骤：

步骤101，获取多个位置信息，每个位置信息对应一充电点对象；

充电站运营商和充电站数据聚合商可以通过不同渠道，如电动汽车生产商、地图数据等收集大量的充电点信息，其中，充电点可以是充电站或充电桩等各种形式的用于给电动汽车充电的设备，充电点数据可以包括充电点的位置信息和/或描述信息，充电点的位置可以通过经纬度或者其他位置信息的描述方式展示，描述信息可以为可以是文字描述也可以是图像描述等形式，文字描述可以包括充电点的地址信息，图像描述可以包括充电点附近的实景图像、充电点的地图图像等。

在收集多个充电点信息后，可以获取这些充电点的位置信息，其中每个位置信息可以对应一个充电点对象。

步骤102，分别对所述多个位置信息进行编码，得到编码信息，并按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集；

在获取位置信息后，可以分别对多个位置信息进行编码，得到编码信息，例如，可以采用geohash编码技术，将位置信息转换为对应的geohash编码，geohash编码技术可以将经纬度转换一组字符串，该字符串可以指向地图上预设大小的区域，当选择6位的geohash编码，可以将位置信息转化为地图上1.2km*0.6km的矩形框区域，当选择7位的geohash编码，可以将位置信息转化为地图上0.075km*0.075km的矩形框区域。

在得到编码信息后，可以按照编码信息对多个位置信息对应的充电点对象进行分组，从而可以得到一个或多个充电点集。

在本发明一实施例中，所述按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集，包括：

从所述多个位置信息对应的充电点对象中，确定具有相同编码信息的充电点对象；将具有相同编码信息的充电点对象划分为同一个充电点对象集。

在实际应用中，在确定编码信息后，可以从多个位置信息对应的充电点对象中，确定相同具有相同编码信息的充电点对象，这些充电点对象中容易出现针对同一充电点的重复充电点数据。进而，可以将具有相同编码的充电点对象划分为一个充电点集中。

例如，针对6位的geohash编码，在1.2km*0.6km的矩形框区域内最多出现4个充电点，而正对7位的geohash编码，在0.075km*0.075km的矩形框区域，最多就一个充电点。

当采用6位的geohash编码对多个经纬度位置信息进行编码时，可以会出现的相同编码，这些相同编码的充电点对象可能是指同一个充电点，可以将这些相同编码的充电点对象划分为同一组，形成一个充电点集，进而在这个充电点集中进行去重。

当采用7位的geohash编码对多个经纬度位置信息进行编码时，当存在多个相同的编码信息，由于7位编码对应的区域较小，该区域内最多出现一个充电点，从而可以确定多个相同的编码信息对应的充电点对象实际上都是指向同一充电点，因而，可以将这些具有相同编码信息的充电点对象划分到一个充电点集中，进而可以针对每个充电点集进行去重。

步骤103，分别获取每个充电点对象集所包含的充电点对象对应的描述信息；

在确定候选充电点对象集后，在充电点对象集中，分别获取每个充电点对象对应的描述信息，其中，描述信息可以是文字描述，也可以是图像描述等形式，文字描述可以包括充电点的地址信息，图像描述可以包括充电点附近的实景图像、充电点的地图图像等。

步骤104，采用预先训练的数据模型，根据所述描述信息，对每个充电点对象集所包含的充电点对象进行去重。

在获取描述信息之后，可以调用预先训练的数据模型，从而可以根据描述信息，确定充电点对象集中的充电点对象是否存在重复数据，针对存在重复数据的充电点对象集进行去重。

在本发明一实施例中，还包括：

针对每个充电点对象集，从去重后的充电点对象中，确定不超过预设数量的充电点对象。

在实际应用中，可以针对每个充电点对象集分别进行去重，在去重后，由于编码信息实际上是对应地图预设大小的矩形框的区域，而在预设大小的矩形框内，可以设置预设数量，该预设数量为该预设大小的矩阵框内最多能存在的充电点数量。

在对充电点对象集进行去重后，当一个充电点集中的充电点对象数量超过预设数量时，可以从去重后的充电点对象中选取预设数量的充电点对象。

例如，6位的geohash编码，相同编码信息指向的区域内最多存在4个充电站，因而，预设数量可以设置4，如果某一个充电点对象集中在去重后还有5个充电点对象，则可以从5个充电点对象中随机选取4个，未被选中的则舍弃。

在本发明实施例中，通过获取多个位置信息，每个位置信息对应一充电点对象，分别对所述多个位置信息进行编码，得到编码信息，并按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集，分别获取每个充电点对象集所包含的充电点对象对应的描述信息；采用预先训练的数据模型，根据所述描述信息，对每个充电点对象集所包含的充电点对象进行去重，实现了对多个充电点数据去重，有利于车主快速检索充电点。

参照图2，示出了本发明一实施例提供的另一种车辆充电点的数据去重方法的步骤流程图，具体可以包括如下步骤：

步骤201，获取多个位置信息，每个位置信息对应一充电点对象；

步骤202，分别对所述多个位置信息进行编码，得到编码信息，并按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集；

步骤203，针对每个充电点对象集，确定两个候选充电点对象；

在确定充电点对象集后，可以针对每个充电点对象集，随机确定两个候选充电点对象。

步骤204，采用预先训练的数据模型，根据所述描述信息，判断所述两个候选充电点对象是否对应同一充电点；

在获取描述信息后，可以调用预先训练的数据模型，根据描述信息，判断两个候选充电点对象是否对应同一充电点。

在本发明一实施例中，所述采用预先训练的数据模型，根据所述描述信息，判断所述两个候选充电点对象是否对应同一充电点，包括：

S01，根据所述描述信息，确定针对所述两个候选充电点对象的特征向量；

在实际应用中，可以根据描述信息确定两个充电点对象的特征向量。

在本发明一实施例中，所述根据所述描述信息，确定针对所述两个候选充电点对象的特征向量，包括：

S011，根据所述描述信息，确定针对所述两个候选充电点对象的关键信息；

在本发明一实施例中，所述关键信息可以包括以下任一项或多项：

编辑距离信息、杰拉德系数信息、TF-IDF(Term Frequency–Inverse DocumentFrequency，词频-逆文本频率指数)相似度、服务区信息。

在实际应用中，当获取描述信息后，可以针对两个候选充电点对象，根据描述信息确定关键信息，其中，关键信息可以是编辑距离信息、杰拉德系数信息、TF-IDF相似度、服务区信息中的任意一项或多项。

编辑距离(Edit Distance)是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数，当两字符串的编辑距离越大，则说明两字符串越是不同，在编辑距离中，许可的编辑操作可以包括将一个字符替换成另一个字符、插入一个字符、删除一个字符中任意一项或多项的组合。

杰卡德系数(Jaccard Index),又称为Jaccard相似系数，用于比较有限样本集之间的相似性与差异性，Jaccard系数值越大，样本相似度越高。杰卡德系数的计算方式就是两个样本的交集除以并集。最终得到的数值，当两个样本完全一致时，结果为1，当两个样本完全不同时，结果为0。

TF-IDF相似度是指两段文本的TF-IDF向量的余弦相似度。

例如，对充电站数据去重的主要构思就是比对两个充电站的充电站名称和充电站地址的文本信息相似度。而为了计算文本信息的相似度，可以先将充电站名称和充电站地址的文本信息拼成一段文本。

对于两个充电站分别对应的两段文本，可以利用分词器分别进行切词(即把一段连续的中文文本切成一个个词)，然后，分别计算两段文本的编辑距离、杰拉德系数、TF-IDF相似度。

同时，可以通过将分词与预设关键词进行匹配，确定充电站是否处于高速服务区(服务器信息)，其中，预设关键词可以是“服务区”、“加油站”等关键字。

当确定充电站属于高速服务器区时，可以根据充电站的经纬度及高速路段经纬度判定该充电站是位于高速路的左侧还是右侧。

高速路两旁的充电站名字和地址都极为相似，位置距离也很近，容易被当作同一个充电站，通过提取这个特征，可以区分高速路两侧不同的充电站。

S012，根据所述关键信息，生成针对所述两个候选充电点对象的特征向量。

在确定关键信息后，可以根据一个或多个关键信息，生成针对两个候选充电点对象的特征向量。

S02，将所述特征向量输入预先训练的数据模型，并接收所述数据模型输出的针对所述两个候选充电点对象的匹配概率；

在生成特征向量后，可以将特征向量输入到预设训练的数据模型，通过该数据模型，计算出两个候选充电点对象的匹配概率，从而可以输出匹配概率。

在一示例中，预设训练的数据模型可以确定用于一参数，通过该参数以及特征向量，可以计算出两个候选充电点对象的匹配概率。

在一示例中，所述预先训练的数据模型的生成过程如下：

(1)随机采样多个充电点数据样本，对位置信息进行编码处理，然后将具有相同编码信息的位置信息划分为同一组，然后，进行两两对比。

(2)根据文本信息生成关键信息，并人工判定两个充电点是否属于同一个站点，是则标1，否则标0。

(3)机器学习建模：针对上述标注好的样本数据，将两个充电点的一个或多个关键信息组合在一起，形成一个特征向量。

(4)通过LR模型(Logistic Regression，逻辑回归)对样本进行训练，其训练的过程为最大似然估计，即找到一组参数，使得在这组参数下，样本数据的似然度越大。在逻辑回归模型中，似然度可表示为：

L(θ)＝P(D|θ)＝ΠP(y|x；θ)＝Πg(θ

其中x、y分别为上述提到的特征向量和标注值，θ则是通过训练要得到的一组参数，而P(y|x；θ)(匹配概率计算公式)为：

其中，参数θ的求解过程可采用梯度下降，梯度下降(Gradient Descent)又叫作最速梯度下降，是一种迭代求解的方法，通过在每一步选取使目标函数变化最快的一个方向调整参数的值来逼近最优值。基本步骤如下：

选择下降方向(梯度方向

(5)在上述模型训练完成后，可以对模型进行测试，如果测试的准确率符合预期，我们会将训练输出的模型文件(主要存储模型参数)持久化地存储到云服务器；如果准确率不理想，则调整训练参数重新训练，直至符合。

S03，在所述匹配概率大于预设概率时，判定所述两个候选充电点对象对应同一充电点。

当匹配概率大于预设概率时，则可以判定两个候选充电点实际上对应同一充电点。

步骤205，在所述两个候选充电点对象对应同一充电点时，对所述两个候选充电点对象进行去重。

在确定两个候选充电点对象对应同一充电点时，可以对连个候选充电点对象进行去重，随机去掉其中一个充电点对象的数据，仅保留一个充电点对象。

在本发明实施例中，获取多个位置信息，每个位置信息对应一充电点对象，分别对所述多个位置信息进行编码，得到编码信息，并按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集，分别获取每个充电点对象集所包含的充电点对象对应的描述信息，针对每个充电点对象集，确定两个候选充电点对象，采用预先训练的数据模型，根据所述描述信息，判断所述两个候选充电点对象是否对应同一充电点，在所述两个候选充电点对象对应同一充电点时，对所述两个候选充电点进行去重，实现了通过描述信息确定充电点数据的相似性，从而对充电点数据进行去重，有利于车主快速检索充电点。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明一实施例提供的一种车辆充电点的数据去重的装置的结构示意图，具体可以包括如下模块：

位置信息获取模块301，用于获取多个位置信息，每个位置信息对应一充电点对象；

充电点对象集划分模块302，用于分别对所述多个位置信息进行编码，得到编码信息，并按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集；

描述信息获取模块303，用于分别获取每个充电点对象集所包含的充电点对象对应的描述信息；

去重模块304，用于采用预先训练的数据模型，根据所述描述信息，对每个充电点对象集所包含的充电点对象进行去重。

在本发明一实施例中，所述去重模块304可以包括：

候选充电点对象确定子模块，用于针对每个充电点对象集，确定两个候选充电点对象；

判断子模块，用于采用预先训练的数据模型，根据所述描述信息，判断所述两个候选充电点对象是否对应同一充电点；

去重子模块，用于在所述两个候选充电点对象对应同一充电点时，对所述两个候选充电点进行去重。

在本发明一实施例中，判断子模块可以包括：

特征向量确定单元，用于根据所述描述信息，确定针对所述两个候选充电点对象的特征向量；

匹配概率接收单元，用于将所述特征向量输入预先训练的数据模型，并接收所述数据模型输出的针对所述两个候选充电点对象的匹配概率；

判定单元，用于在所述匹配概率大于预设概率时，判定所述两个候选充电点对象对应同一充电点。

在本发明一实施例中，特征向量确定单元可以包括：

关键信息确定子单元，用于根据所述描述信息，确定针对所述两个候选充电点对象的关键信息；

特征向量确定子单元，用于根据所述关键信息，生成针对所述两个候选充电点对象的特征向量。

在本发明一实施例中，充电点对象集划分模块302可以包括：

充电点对象确定子模块，用于从所述多个位置信息对应的充电点对象中，确定具有相同编码信息的充电点对象；

充电点对象集划分子模块，用于将具有相同编码信息的充电点对象划分为同一个充电点对象集。

在本发明一实施例中，所述装置包括：

预设数量筛选模块，用于针对每个充电点对象集，从去重后的充电点对象中，确定不超过预设数量的充电点对象。

在本发明一实施例中，所述关键信息包括以下任一项或多项：

编辑距离信息、杰拉德系数信息、TF-IDF相似度、服务区信息。

在本发明实施例中，通过获取多个位置信息，每个位置信息对应一充电点对象，分别对所述多个位置信息进行编码，得到编码信息，并按照所述编码信息，将所述多个位置信息对应的充电点对象划分为一个或多个充电点对象集，分别获取每个充电点对象集所包含的充电点对象对应的描述信息，采用预先训练的数据模型，根据所述描述信息，对每个充电点对象集所包含的充电点对象进行去重，实现了对多个充电点数据去重，有利于车主快速检索充电点。

本发明一实施例还提供了一种车辆，可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上车辆充电点的数据去重方法。

本发明一实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上车辆充电点的数据去重方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对所提供的一种车辆充电点的数据去重方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：谢振宇;
专利申请人：广州小鹏汽车科技有限公司;

上一篇：一种吹塑川字形托盘
下一篇：一种芯片划切用多孔质超薄砂轮及其制备方法