多源文本数据智能匹配方法、装置、存储介质及设备

文献发布时间：2023-06-19 16:11:11

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种多源文本数据智能匹配方法、装置、存储介质及设备。

背景技术

现如今机器学习、大数据的浪潮让企业可以根据自身存有的数据开展业务，但若要开辟新业务场景，很多公司现存数据无法满足需求，因此各个企业之间会有合作倾向，根据多方存有的数据进行自身业务拓展。然而，伴随着互联网数据安全的管理及数据价值的重要性不断提高，企业共享意愿、数据的隐私保护、不同企业间相同信息规格不同难以融合成为了企业合作的障碍。

现有技术中，在两个集团或企业的内部信息系统中进行用户匹配时，有时用户名称无法唯一标识用户，此时则需要进行地址匹配。在两个信息系统中，用户地址缺乏标准的地址书写格式，造成了同一个地点的多种地址书写方式，这增添了用户地址匹配的难度。传统的地址匹配方法主要关注地址文本之间词与词的匹配关系，无法准确地将同一地点不同表达方式下的地址相匹配。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种多源文本数据智能匹配方法、装置、存储介质及设备，以至少解决现有技术中文本数据匹配方法存在匹配难度高、匹配准确率低的技术问题。

根据本发明实施例的一个方面，提供了一种多源文本数据智能匹配方法，包括：获取不同的信息系统对应的第一文本数据，其中，每个上述信息系统的第一文本数据包括用于记录上述信息系统的地址的文本信息；采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类；提取每个上述地址类的地址特征信息，得到多个上述地址特征信息；基于多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果。

可选的，在上述采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类之前，上述方法还包括：对上述第一文本数据进行预处理，其中，上述预处理至少包括：删除只含有数字的上述第一文本数据；删除数据量低于预设阈值的上述第一文本数据；删除上述第一文本数据中含有的不符合预设规定的字符。

可选的，在上述采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类之前，上述方法还包括：将上述第一文本数据传入到公共服务器中；采用分词组件对上述第一文本数据进行分词处理，得到词条列表；根据上述词条列表构建词袋模型。

可选的，上述采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类，包括：从上述词袋模型中随机选取测试样本进行聚类分析，得到并记录聚类数；基于上述聚类数确定多个地址类。

可选的，上述提取每个上述地址类的地址特征信息，得到多个上述地址特征信息，包括：采用加权算法计算得到每个上述地址类的权值向量，得到多个上述权值向量；获取多个上述权值向量中大于预设权值阈值的目标向量；将上述目标向量作为对应上述地址类的地址特征信息。

可选的，上述基于多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果，包括：采用层次聚类算法对上述地址特征信息进行聚类分析，得到多个特征类；获取每个上述特征类中属于多个不同上述信息系统的上述第一文本数据，得到第二文本数据；对上述第二文本数据进行文本相似度匹配处理，得到文本相似度值；选取上述文本相似度值最高的上述第二文本数据作为匹配结果。

根据本发明实施例的另一方面，还提供了一种多源文本数据智能匹配装置，包括：获取模块，用于获取不同的信息系统对应的第一文本数据，其中，每个上述信息系统的第一文本数据包括用于记录上述信息系统的地址的文本信息；分析模块，用于采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类；提取模块，用于提取每个上述地址类的地址特征信息，得到多个上述地址特征信息；匹配模块，用于基于多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果。

根据本发明实施例的另一方面，还提供了一种非易失性存储介质，上述非易失性存储介质存储有多条指令，上述指令适于由处理器加载并执行任意一项上述的多源文本数据智能匹配方法。

根据本发明实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序被设置为运行时执行任意一项上述的多源文本数据智能匹配方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为运行上述计算机程序以执行任意一项上述的多源文本数据智能匹配方法。

在本发明实施例中，通过获取不同的信息系统对应的第一文本数据，其中，每个上述信息系统的第一文本数据包括用于记录上述信息系统的地址的文本信息；采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类；提取每个上述地址类的地址特征信息，得到多个上述地址特征信息；基于多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果，达到了在保证数据安全的前提下，实现文本数据聚类分析以及地址特征提取的目的，从而实现了安全、高效的对文本数据进行匹配的技术效果，进而解决了现有技术中文本数据匹配方法存在匹配难度高、匹配准确率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的多源文本数据智能匹配方法流程图；

图2是根据本发明实施例的一种可选的文本数据匹配方法示意图；

图3是根据本发明实施例的一种可选的聚类指标图示意图；

图4是根据本发明实施例的一种多源文本数据智能匹配装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种多源文本数据智能匹配方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的多源文本数据智能匹配方法流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取不同的信息系统对应的第一文本数据，其中，每个上述信息系统的第一文本数据包括用于记录上述信息系统的地址的文本信息；

步骤S104，采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类；

步骤S106，提取每个上述地址类的地址特征信息，得到多个上述地址特征信息；

步骤S108，基于多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果。

在本发明实施例中，上述步骤S102至S108中提供的多源文本数据智能匹配方法的执行主体为数据匹配系统，采用上述数据匹配系统获取不同的信息系统对应的第一文本数据，采用层次聚类算法并基于联邦学习的方式对上述第一文本数据进行聚类分析，得到多个地址类；提取每个上述地址类的地址特征信息，得到多个上述地址特征信息；结合文本相似度对多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果。

需要说明的是，上述多源文本数据智能匹配方法通常应用于两个或两个以上不同信息系统间的文本数据匹配；上述文本数据的数据内容与数据类型不作具体限定，例如：地址数据。在现有技术中，根据两个信息系统中的地址文本相似度进行匹配，但该方法准确率偏低，并且双方在数据交换时无法保证数据隐私的安全。

在本发明实施例中，采用在保证数据安全的条件下，根据地址特点，使用了文本相似度和联邦学习相结合的方法进行文本特征提取和最终的地址文本匹配，有效解决了数据隐私泄露和地址匹配率较低的问题，实现对两个系统用户地址的匹配。

需要说明的是，上述联邦学习的本质是一种分布式机器学习，是对样本或者特征的一种联合，在纵向联邦学习中，企业的用户重叠度高，特征重叠度小，建模过程中需要企业用户之间存在交集以及某一方需要存有标签。

还需要说明的是，每个上述信息系统的第一文本数据包括用于记录上述信息系统的地址的文本信息。

作为一种可选的实施例，如图2所示的文本数据匹配方法示意图，以两个不同企业的信息系统地址数据匹配过程为例，上述数据匹配系统接收到地址数据后，首先对数据进行预处理，将两个系统的地址中缺失值，不符合要求的地址进行删除，以保证后续处理不被干扰；然后将两个系统地址文本通过加密方式传入公共服务器，再利用分词组件进行分词，然后利用分词后的词汇构建词条列以及词袋模型；使用层次聚类法分别对两个系统的地址进行聚类，并对每一类进行特征提取，对提取后的特征进行聚类；在每一类中找到属于两个不同系统的地址，通过数据解密得到双方上传的地址数据，再将这两组地址在公共服务器上做文本相似度的匹配，得到这两组地址中相似度最高的地址。

需要说明的是，特征提取后的特征数据不含隐私数据；相似度的衡量可以选用适用文本数据的余弦相似度指标进行衡量。

通过本发明实施例，分阶段对地址文本进行处理，将的特征相结合进行聚类匹配，既可以有效地避免数据隐私泄露，也可以两个企业的地址进行匹配，达到了在保证数据安全的前提下，实现地址数据聚类分析以及地址特征提取的目的，从而实现了安全、高效的对地址数据进行匹配的技术效果，进而解决了现有技术中文本数据匹配方法存在匹配难度高、匹配准确率低的技术问题。

在一种可选的实施例中，在上述采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类之前，上述方法还包括：

步骤S202，对上述第一文本数据进行预处理，其中，上述预处理至少包括：删除只含有数字的上述第一文本数据；删除数据量低于预设阈值的上述第一文本数据；删除上述第一文本数据中含有的不符合预设规定的字符。

在本发明实施例中，获取不同的信息系统对应的第一文本数据后，首先对上述第一文本数据进行预处理。

作为一种可选的实施例，数据预处理过程主要由下列两个子步骤构成：删除只含有数字的数据，以及数据缺失严重的数据，例如：如只含有XX区或者XX市的数据；删除非法字符数据中含有的非法字符，例如：“&”、“@”等。

在一种可选的实施例中，在上述采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类之前，上述方法还包括：

步骤S302，将上述第一文本数据传入到公共服务器中；

步骤S304，采用分词组件对上述第一文本数据进行分词处理，得到词条列表；

步骤S306，根据上述词条列表构建词袋模型。

作为一种可选的实施例，将数据加密后传入到公共服务器中，并采用分词组件分别对两个系统的地址进行分词处理，然后构建词条列表；并根据上述词条列表构建词袋模型。

需要说明的是，例如由“A市M区”和“A市N区”这两个地址通过分词后变为[A市，M区]和[A市，N区]，由它们两个地址构成的词条列表是[A市，M区，N区]，对应的词袋模型为[1,1,0]和[1,0,1]。

在一种可选的实施例中，上述采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类，包括：

步骤S402，从上述词袋模型中随机选取测试样本进行聚类分析，得到并记录聚类数；

步骤S404，基于上述聚类数确定多个地址类。

在本发明实施例中，聚类分析是一种无监督的机器学习算法，根据联邦学习的特点，无监督的聚类方法可以让各企业单独使用自己的数据先进行自主学习和相应的特征提取而不使用对方企业的数据，这样提取后的特征既最大程度的体现了样本数据特征，同时也相应的保护了自身数据的隐私。

需要说明的是，采用这样的方法，既可以将“道路”，“大街”等比较宽泛的地点对应正确的“街道”，“社区居委会”，也可以将具体的“XX号”正确匹配。

作为一种可选的实施例，选取平均距离作为聚类的阈值，计算公式如下：

其中，C

作为一种可选的实施例，分别对两个系统地址进行层次聚类处理，选取部分测试样本进行层次聚类，聚类时记录DBI(Davies-Bouldin Index)和DI(Dunn Index)聚类质量衡量指标，找到合适的聚类数。

在本发明实施例中，所选取样本为某集团系统地址1092条数据，如图3所示的聚类指标图示意图，DBI、DI指数为衡量聚类结果质量的指标，DBI的值越小越好而DI的值越大越好。根据指标图的趋势，聚类的最优点可能出现在阶跃处，从图中可以看到，当分类数大概为990类时，分类效果最佳。因此，可以将分类数确定为990个，此时类别的平均距离计算为0.118；将此距离阈值作为聚类结束的标准，对系统1的90950个样本和系统2中的1092个样本进行聚类，分别得到聚类数10953和990。

在一种可选的实施例中，上述提取每个上述地址类的地址特征信息，得到多个上述地址特征信息，包括：

步骤S502，采用加权算法计算得到每个上述地址类的权值向量，得到多个上述权值向量；

步骤S504，获取多个上述权值向量中大于预设权值阈值的目标向量；

步骤S506，将上述目标向量作为对应上述地址类的地址特征信息。

作为一种可选的实施例，通过加权算法TF-IDF(Term Frequency-InverseDocument Frequency)模型获取每一类中词汇的权值向量，得到每一类中权值高于0.08的目标向量作为该类的特征。并剔除如“市”，“区”等无意义的字；例如：提取特征为(A，B，C)。

需要说明的是，上述A代表某市，B代表某县，C代表某镇、某街道(或某建筑)。

在一种可选的实施例中，上述基于多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果，包括：

步骤S602，采用层次聚类算法对上述地址特征信息进行聚类分析，得到多个特征类；

步骤S604，获取每个上述特征类中属于多个不同上述信息系统的上述第一文本数据，得到第二文本数据；

步骤S606，对上述第二文本数据进行文本相似度匹配处理，得到文本相似度值；

步骤S608，选取上述文本相似度值最高的上述第二文本数据作为匹配结果。

在本发明实施例中，将两个系统的特征类利用层次聚类方法进行的聚类分析，聚类步骤与得到地址类时的步骤一致。

作为一种可选的实施例，在同一类中得到所属不同系统的特征，从该特征代表的样本在同一类中做文本相似度的计算，相似度最高的两个地址即为这两个系统中互相匹配的一对地址。

需要说明的是，每一类中找到属于两个不同系统的地址，通过解密得到双方上传的地址，再将这两组地址在公共服务器上做文本相似度的匹配得到这两组地址中相似度最高的地址，相似度的衡量可以选用适用文本数据的余弦相似度指标，a、b为两个文本经过分词后的词向量，a、b之间的余弦相似度计算公式如下：

作为一种可选的实施例，在系统2中的1092条地址中，成功匹配了813条正确的系统1地址，准确率为75.73％。

通过上述步骤，对两个或多个系统中的文本数据(例如：地址数据)进行匹配，在保护了大部分数据隐私的情况下，仅仅通过地址的匹配实现多系统之间用户交集的筛选。在进行地址匹配过程中，各企业可以使用无监督聚类方法进行自身系统的地址信息的特征提取，再根据提取的特征，进行联邦学习多数据源的聚类学习，同时也提高了联邦学习自身对于无监督学习的适用性，在保证数据隐私的前提下，完成成果的推送反馈。

实施例2

根据本发明实施例，还提供了一种用于实施上述多源文本数据智能匹配方法的装置实施例，图4是根据本发明实施例的一种多源文本数据智能匹配装置的结构示意图，如图4所示，上述装置包括：获取模块40、分析模块42、提取模块44和匹配模块46，其中：

获取模块40，用于获取不同的信息系统对应的第一文本数据，其中，每个上述信息系统的第一文本数据包括用于记录上述信息系统的地址的文本信息；

分析模块42，用于采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类；

提取模块44，用于提取每个上述地址类的地址特征信息，得到多个上述地址特征信息；

匹配模块46，用于基于多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果。

此处需要说明的是，上述获取模块40、分析模块42、提取模块44和匹配模块46对应于实施例1中的步骤S102至步骤S108，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。

需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

根据本发明的实施例，还提供了一种计算机可读存储介质的实施例。可选的，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的文本数据匹配方法所执行的程序代码。

可选的，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选的，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取不同的信息系统对应的第一文本数据，其中，每个上述信息系统的第一文本数据包括用于记录上述信息系统的地址的文本信息；采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类；提取每个上述地址类的地址特征信息，得到多个上述地址特征信息；基于多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果。

可选的，上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：对上述第一文本数据进行预处理，其中，上述预处理至少包括：删除只含有数字的上述第一文本数据；删除数据量低于预设阈值的上述第一文本数据；删除上述第一文本数据中含有的不符合预设规定的字符。

可选的，上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：将上述第一文本数据传入到公共服务器中；采用分词组件对上述第一文本数据进行分词处理，得到词条列表；根据上述词条列表构建词袋模型。

可选的，上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：从上述词袋模型中随机选取测试样本进行聚类分析，得到并记录聚类数；基于上述聚类数确定多个地址类。

可选的，上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：采用加权算法计算得到每个上述地址类的权值向量，得到多个上述权值向量；获取多个上述权值向量中大于预设权值阈值的目标向量；将上述目标向量作为对应上述地址类的地址特征信息。

可选的，上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：采用层次聚类算法对上述地址特征信息进行聚类分析，得到多个特征类；获取每个上述特征类中属于多个不同上述信息系统的上述第一文本数据，得到第二文本数据；对上述第二文本数据进行文本相似度匹配处理，得到文本相似度值；选取上述文本相似度值最高的上述第二文本数据作为匹配结果。

根据本发明的实施例，还提供了一种处理器的实施例。可选的，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的文本数据匹配方法所执行的程序代码。

本申请实施例提供了一种电子设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取不同的信息系统对应的第一文本数据，其中，每个上述信息系统的第一文本数据包括用于记录上述信息系统的地址的文本信息；采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类；提取每个上述地址类的地址特征信息，得到多个上述地址特征信息；基于多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取不同的信息系统对应的第一文本数据，其中，每个上述信息系统的第一文本数据包括用于记录上述信息系统的地址的文本信息；采用层次聚类算法对上述第一文本数据进行聚类分析，得到多个地址类；提取每个上述地址类的地址特征信息，得到多个上述地址特征信息；基于多个上述地址特征信息对不同的上述信息系统对应的上述第一文本数据进行匹配，得到匹配结果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：马龙飞;张禄;李香龙;徐蕙;陆斯悦;严嘉慧;丁屹峰;段大鹏;王艳松;姚斌;高鑫;胡彩娥;王健;
专利申请人：国网北京市电力公司;国家电网有限公司;

上一篇：一种用于瓷绝缘子的彩色釉及其制备方法
下一篇：高速磁浮轨道安装测控三维控制网的测设方法及系统