掌桥专利:专业的专利平台
掌桥专利
首页

一种数据关联检索方法、装置及相关设备

文献发布时间:2023-06-19 19:37:02


一种数据关联检索方法、装置及相关设备

技术领域

本申请涉及信息检索技术领域,更具体地说,是涉及一种数据关联检索方法、装置及相关设备。

背景技术

纳米技术领域内包含多种多样的数据信息,一方面,从数据管理的角度来说,为便于数据管理及维护,通常将一种类型的数据保存在一个数据库中,如纳米物质成分数据库、纳米材料数据库、纳米材料制备方法数据库、纳米产品数据库和纳米企业数据库等等;另一方面,从数据使用的角度来说,为检索到相关信息,通常需要基于某检索词找到各类型的数据,并且需要找到每一类型数据之间的内部关联关系。

基于现有的数据存储架构,只能通过人工依据检索词到各个数据库去检索相匹配的目标数据,然后再基于个人认知,人为地构建各目标数据之间的联系,操作上缺乏便利性。

发明内容

有鉴于此,本申请提供了一种数据关联检索方法、装置及相关设备,以实现不同数据库间的关联检索。

为实现上述目的,本申请第一方面提供了一种数据关联检索方法,包括:

基于目标检索语句,对每一数据库进行检索,得到每一数据库中与所述目标检索语句相匹配的目标数据记录;

将各目标数据记录进行两两组合,得到目标数据记录对,其中,每一目标数据记录对中的两条目标数据记录分属于不同数据库;

计算每一目标数据记录对中两份目标数据的匹配信息,并基于每一目标数据记录对中两份目标数据的匹配信息,确定所述目标数据记录对的内部关联关系;

基于各目标数据记录对的内部关联关系,生成所述目标检索语句的关联检索结果。

优选地,对每一数据库进行检索,得到每一数据库中与所述目标检索语句相匹配的目标数据记录的过程,包括:

针对每一数据库中的每一数据记录:

计算所述目标检索语句相对于所述数据记录的目标字段内容的匹配值;

判断所述匹配值是否大于预设第一阈值;

若是,确定所述数据记录为与所述目标检索语句相匹配的目标数据记录;

其中,所述匹配值用于量化所述目标检索语句中各元素相对于所述数据记录的目标字段内容的匹配情况。

优选地,计算所述目标检索语句相对于所述数据记录的目标字段内容的匹配值的过程,包括:

从所述目标检索语句中提取出各元素;

对于所述各元素中的每一元素,判断所述元素是否包含在所述目标字段内容中,若是,确定所述元素为命中元素;

将命中元素的总数与各元素的总数的比值,确定为所述目标检索语句相对于所述数据记录的目标字段内容的匹配值。

优选地,所述目标检索语句为英文文本;从所述目标检索语句中提取出各元素的过程,包括:

将所述目标检索语句中的各字母进行小写化处理,将所述目标检索语句中的特殊符号替换为空格,以及删除所述目标检索语句两端的空格和特殊符号,得到第一目标检索语句;

将所述第一目标检索语句中的连续空格替换为单个空格,得到第二目标检索语句;

利用空格作为切割符,将所述第二目标检索语句切割成各元素。

优选地,所述目标检索语句为中文文本;从所述目标检索语句中提取出各元素的过程,包括:

利用预设的分词算法对所述目标检索语句进行分词,得到各元素。

优选地,计算每一目标数据记录对中两份目标数据的匹配信息的过程,包括:

针对对应于所述两份目标数据的每一目标字段对:

获取第一字段内容和第二字段内容,其中,所述目标字段对由第一字段和第二字段构成,所述第一字段内容为所述两份目标数据中第一份目标数据对应于所述第一字段的内容,所述第二字段内容为所述两份目标数据中第二份目标数据对应于所述第二字段的内容;

计算所述第一字段内容相对于所述第二字段内容的第一匹配值,以及计算所述第二字段内容相对于所述第一字段内容的第二匹配值,由所述第一匹配值和第二匹配值构成所述目标字段对的第一匹配值和第二匹配值;

判断所述第一字段内容是否需要去噪,若是,对所述第一字段内容进行去噪处理,得到去噪后的第一字段内容,若否,直接将所述第一字段内容确定为去噪后的第一字段内容;

判断所述第二字段内容是否需要去噪,若是,对所述第二字段内容进行去噪处理,得到去噪后的第二字段内容,若否,直接将所述第二字段内容确定为去噪后的第二字段内容;

计算所述去噪后的第一字段内容相对于所述去噪后的第二字段内容的第三匹配值,以及计算所述去噪后的第二字段内容相对于所述去噪后的第一字段内容的第四匹配值,由所述第三匹配值和第四匹配值构成所述目标字段对的第三匹配值和第四匹配值;

由所述两份目标数据中各目标字段对的第一匹配值、第二匹配值、第三匹配值以及第四匹配值构成所述两份目标数据的匹配信息。

优选地,各数据库包括纳米材料数据库、纳米材料制备方法数据库、纳米产品数据库和纳米企业数据库;

对所述第一字段内容进行去噪处理的过程,包括:

获取所述第一字段内容所在的第一数据库以及所述第一字段内容对应的第一字段,所述第一数据库为纳米材料制备方法数据库、纳米产品数据库或纳米企业数据库;

根据所述纳米材料数据库,获取对应于所述第一数据库和所述第一字段的各非关键字;

从所述第一字段内容中剔除各非关键字。

优选地,基于每一目标数据记录对中两份目标数据的匹配信息,确定所述目标数据记录对的内部关联关系的过程,包括:

判断是否存在第一匹配值及第二匹配值均大于预设第二阈值的目标字段对;

若是:

从各目标字段对中筛选出第一匹配值及第二匹配值均大于预设第二阈值,且优先级最高的入选字段对;

若所述入选字段对的第一匹配值小于第二匹配值,确定每一目标数据记录对中的第二份数据隶属于第一份数据;

若所述入选字段对的第一匹配值大于第二匹配值,确定每一目标数据记录对中的第一份数据隶属于第二份数据;

若所述入选字段对的第一匹配值等于第二匹配值,确定每一目标数据记录对中的第一份数据与第二份数据关系对等;

若否:

从各目标字段对中筛选出第三匹配值及第四匹配值均大于预设第三阈值,且优先级最高的入选字段对;

若所述入选字段对的第三匹配值小于第四匹配值,确定每一目标数据记录对中的第二份数据隶属于第一份数据;

若所述入选字段对的第三匹配值大于第四匹配值,确定每一目标数据记录对中的第一份数据隶属于第二份数据;

若所述入选字段对的第三匹配值等于第四匹配值,确定每一目标数据记录对中的第一份数据与第二份数据关系对等。

本申请第二方面提供了一种数据关联检索装置,包括:

数据记录获取单元,用于基于目标检索语句,对每一数据库进行检索,得到每一数据库中与所述目标检索语句相匹配的目标数据记录;

数据记录组合单元,用于将各目标数据记录进行两两组合,得到目标数据记录对,其中,每一目标数据记录对中的两条目标数据记录分属于不同数据库;

匹配信息获取单元,用于计算每一目标数据记录对中两份目标数据的匹配信息,并基于每一目标数据记录对中两份目标数据的匹配信息,确定所述目标数据记录对的内部关联关系;

关联结果处理单元,用于基于各目标数据记录对的内部关联关系,生成所述目标检索语句的关联检索结果。

本申请第三方面提供了一种数据关联检索设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现上述的数据关联检索方法的各个步骤。

本申请第四方面提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述的数据关联检索方法的各个步骤。

经由上述的技术方案可知,本申请首先基于目标检索语句,对每一数据库进行检索,得到每一数据库中与所述目标检索语句相匹配的目标数据记录。然后,将各目标数据记录进行两两组合,得到目标数据记录对。其中,每一目标数据记录对中的两条目标数据记录分属于不同数据库。接着,计算每一目标数据记录对中两份目标数据的匹配信息,并基于每一目标数据记录对中两份目标数据的匹配信息,确定所述目标数据记录对的内部关联关系。最后,基于各目标数据记录对的内部关联关系,生成所述目标检索语句的关联检索结果。本申请可以基于目标检索语句找出相匹配的目标数据记录,并能自动生成目标数据记录的内部关联关系,无需人工对目标数据记录进行一一比对,提高了关联检索的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的数据关联检索方法的示意图;

图2为本申请实施例公开的数据关联检索方法的另一示意图;

图3为本申请实施例公开的数据关联检索装置的示意图;

图4为本申请实施例公开的数据关联检索设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

下面介绍本申请实施例提供的数据关联检索方法。请参阅图1,本申请实施例提供的数据关联检索方法可以包括如下步骤:

步骤S101,基于目标检索语句,对每一数据库进行检索,得到每一数据库中与目标检索语句相匹配的目标数据记录。

其中,这里提及的检索可以有多种实现形式,示例性地,可以到数据使用数据库自带的检索功能进行检索,也可以通过搜索引擎对其进行检索,此外,还可以利用自行编写的程序遍历并比对每条数据记录。

各数据库可以包括纳米物质成分数据库、纳米材料数据库、纳米材料制备方法数据库、纳米文献数据库、纳米产品数据库和纳米企业数据库等等。

需要注明的是,目标检索语句本身也可以是其中一个数据库中某一数据项的数据记录。具体地,假设前述列举的各数据库以纳米材料数据库作为联系的纽带,那么,目标检索语句可以是纳米材料数据库中的“纳米材料”这一数据项下面的数据记录。

可以理解,基于前述假设,纳米材料数据库中除了存储有各纳米材料的信息,还存储有其他各数据库中与“纳米材料”这一数据项相关联的数据项的字段信息。例如,在纳米产品数据库中,与之关联的数据项的字段可以是“产品描述”;在纳米材料制备方法数据库中,与之关联的数据项的字段可以是“材料成分”;在纳米文献数据库中,与之关联的数据项的字段可以是“关键词”;在纳米企业数据库中,与之关联的数据项的字段可以是“产品名称”。通过这些字段信息,可以有目的地到各数据库中查找相应字段的数据项记录,从而最终检索出与目标检索语句相匹配的目标数据记录。

步骤S102,将各目标数据记录进行两两组合,得到目标数据记录对。

其中,每一目标数据记录对中的两条目标数据记录分属于不同数据库。示例性地,假设各目标数据记录中包括:来自纳米产品数据库中的记录A、记录B,来自纳米材料制备方法数据库中的记录C,来自纳米文献数据库中的记录D、记录E、记录F,以及来自纳米企业数据库中的记录G、记录H。那么,对这些目标数据记录进行两两组合,可以得到以下目标数据记录对:

步骤S103,计算每一目标数据记录对中两份目标数据的匹配信息,并基于每一目标数据记录对中两份目标数据的匹配信息,确定该目标数据记录对的内部关联关系。

可以理解,该匹配信息用于表征两份目标数据记录之间的关联关系,例如,假设目标检索语句为“silver”,对于目标数据记录对

步骤S104,基于各目标数据记录对的内部关联关系,生成该目标检索语句的关联检索结果。

本申请首先基于目标检索语句,对每一数据库进行检索,得到每一数据库中与所述目标检索语句相匹配的目标数据记录。然后,将各目标数据记录进行两两组合,得到目标数据记录对。其中,每一目标数据记录对中的两条目标数据记录分属于不同数据库。接着,计算每一目标数据记录对中两份目标数据的匹配信息,并基于每一目标数据记录对中两份目标数据的匹配信息,确定所述目标数据记录对的内部关联关系。最后,基于各目标数据记录对的内部关联关系,生成所述目标检索语句的关联检索结果。本申请可以基于目标检索语句找出相匹配的目标数据记录,并能自动生成目标数据记录的内部关联关系,无需人工对目标数据记录进行一一比对,提高了关联检索的效率。

在本申请的一些实施例中,步骤S101对每一数据库进行检索,得到每一数据库中与目标检索语句相匹配的目标数据记录的过程,可以包括:

针对每一数据库中的每一数据记录:

S1,计算目标检索语句相对于该数据记录的目标字段内容的匹配值。

其中,匹配值用于量化目标检索语句中各元素相对于一数据记录的目标字段内容的匹配情况。

例如,目标检索语句包含元素a、b、c,那么,匹配值越高,则数据记录的目标字段内容对元素a、b、c的覆盖率越高。

S2,判断该匹配值是否大于预设第一阈值。若是,执行S3。

S3,确定该数据记录为与目标检索语句相匹配的目标数据记录。

例如,假设该预设第一阈值为60%,对于前述例子,由于目标检索语句包含3个元素,只要数据记录的目标字段内容完整包含其中2个元素,就认为该匹配值大于预设第一阈值,并将其确定为目标数据记录;假设该预设第一阈值为90%,对于前述例子,由于目标检索语句包含3个元素,仅当数据记录的目标字段内容完整包含了这3个元素,才能认为该匹配值大于预设第一阈值,并将其确定为目标数据记录。

在本申请的一些实施例中,上述S1计算目标检索语句相对于该数据记录的目标字段内容的匹配值的过程,可以包括:

S11,从目标检索语句中提取出各元素。

S12,对于各元素中的每一元素,判断该元素是否包含在目标字段内容中。若是,确定所述元素为命中元素。

S13,将命中元素的总数与各元素的总数的比值,确定为目标检索语句相对于数据记录的目标字段内容的匹配值。

例如,对于前述例子,目标检索语句包含元素a、b、c,那么,假设有1个元素包含在目标字段内容中,则匹配值为1/3;假设有2个元素包含在目标字段内容中,则匹配值为2/3;假设有3个元素包含在目标字段内容中,则匹配值为1。

在本申请的一些实施例中,前面提及的目标检索语句为英文文本。上述S11从目标检索语句中提取出各元素的过程,可以包括:

S111,将目标检索语句中的各字母进行小写化处理,将目标检索语句中的特殊符号替换为空格,以及删除目标检索语句两端的空格和特殊符号,得到第一目标检索语句。

可以理解,小写化处理用于将所有字母统一化为小写字母,如果字母本身已经是小写字母,则无需转换为小写字母,即,小写化处理后维持不变。

S112,将第一目标检索语句中的连续空格替换为单个空格,得到第二目标检索语句。

S113,利用空格作为切割符,将第二目标检索语句切割成各元素。

在本申请的一些实施例中,前面提及的目标检索语句为中文文本。上述S11从目标检索语句中提取出各元素的过程,可以包括:

利用预设的分词算法对目标检索语句进行分词,得到各元素。

具体地,分词算法可以归纳成三大类,分别为机械式分词法、基于语法和规则的分词法以及基于统计的分词法。

其中,机械式分词法的基本原理为,基于字典,将文档中的字符串与字典中的词条进行逐一匹配。如果字典中找到某个字符串,则匹配成功,可以切分;否则不与切分。

基于语法和规则的分词法的基本原理为,在分词的同时进行句法、语法分析,利用句法信息和语义信息进行词性标注,以解决分词歧义的现象。

基于统计的分词法的基本原理为,根据字符串在语料中出现的统计频率来决定其是否构成词。具体地,词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律,从而实现对未知文本的切分。

可以理解,假如前面提及的目标检索语句同时包含中文文本及英文文本,则首先对目标检索语句进行分割,得到多个语句片段,其中,每一语句片段仅包含一种语言文本,然后根据每一语句片段所属的语言种类,应用相应的元素提取方法,最后将提取到的元素进行合并,得到最终需要的各元素。

在本申请的一些实施例中,步骤S103计算每一目标数据记录对中两份目标数据的匹配信息的过程,可以包括:

针对对应于这两份目标数据的每一目标字段对:

S1,获取第一字段内容和第二字段内容。

其中,目标字段对由第一字段和第二字段构成,第一字段内容为这两份目标数据中第一份目标数据对应于第一字段的内容,第二字段内容为这两份目标数据中第二份目标数据对应于第二字段的内容。

承接前述的假设,各数据库以纳米材料数据库作为联系的纽带,那么,纳米材料数据库除了包含目标检索语句这一数据项的数据记录,还可以包含每两个数据库之间的字段对信息。因此,可以首先查找纳米材料数据库,以得到这两份目标数据的各目标字段对。然后,基于每一目标字段对中的第一字段和第二字段,查找相应的第一字段内容和第二字段内容。

S2,计算第一字段内容相对于第二字段内容的第一匹配值,以及计算第二字段内容相对于第一字段内容的第二匹配值。

由第一匹配值和第二匹配值构成该目标字段对的第一匹配值和第二匹配值。

S3,判断第一字段内容是否需要去噪,若是,对第一字段内容进行去噪处理,得到去噪后的第一字段内容;若否,直接将第一字段内容确定为去噪后的第一字段内容。

S4,判断第二字段内容是否需要去噪,若是,对第二字段内容进行去噪处理,得到去噪后的第二字段内容;若否,直接将第二字段内容确定为去噪后的第二字段内容。

S5,计算去噪后的第一字段内容相对于去噪后的第二字段内容的第三匹配值,以及计算去噪后的第二字段内容相对于去噪后的第一字段内容的第四匹配值。

由第三匹配值和第四匹配值构成该目标字段对的第三匹配值和第四匹配值。

S6,由这两份目标数据中各目标字段对的第一匹配值、第二匹配值、第三匹配值以及第四匹配值构成这两份目标数据的匹配信息。

在本申请的一些实施例中,各数据库包括纳米材料数据库、纳米材料制备方法数据库、纳米产品数据库和纳米企业数据库。

上述S3对第一字段内容进行去噪处理的过程,可以包括:

S31,获取第一字段内容所在的第一数据库以及第一字段内容对应的第一字段。

其中,该第一数据库为纳米材料制备方法数据库、纳米产品数据库或纳米企业数据库。

S32,根据纳米材料数据库,获取对应于该第一数据库和该第一字段的各非关键字。

S33,从该第一字段内容中剔除各非关键字。

示例性地,执行S31,获得第一字段内容为“silver nanoparticles”,所在数据库为纳米材料制备方法数据库,所对应的第一字段为“Materials_name”。执行S32,对纳米材料数据库进行检索,查找得到对应于材料制备方法数据库和“Materials_name”的各非关键字,包括“nanoparticles”、“nanotube”以及“nanofilm”。最后,执行S33,将非关键字从第一字段内容“silver nanoparticles”中剔除掉,得到去噪后的第一字段内容为“silver”。

在本申请的一些实施例中,步骤S103基于每一目标数据记录对中两份目标数据的匹配信息,确定该目标数据记录对的内部关联关系的过程,可以包括:

S1,判断是否存在第一匹配值及第二匹配值均大于预设第二阈值的目标字段对。若是,执行S2;若否,执行S6。

S2,从各目标字段对中筛选出第一匹配值及第二匹配值均大于预设第二阈值,且优先级最高的入选字段对。

S3,若入选字段对的第一匹配值小于第二匹配值,确定每一目标数据记录对中的第二份数据隶属于第一份数据。

S4,若入选字段对的第一匹配值大于第二匹配值,确定每一目标数据记录对中的第一份数据隶属于第二份数据。

S5,若入选字段对的第一匹配值等于第二匹配值,确定每一目标数据记录对中的第一份数据与第二份数据关系对等。

S6,从各目标字段对中筛选出第三匹配值及第四匹配值均大于预设第三阈值,且优先级最高的入选字段对。

S7,若入选字段对的第三匹配值小于第四匹配值,确定每一目标数据记录对中的第二份数据隶属于第一份数据。

S8,若入选字段对的第三匹配值大于第四匹配值,确定每一目标数据记录对中的第一份数据隶属于第二份数据。

S9,若入选字段对的第三匹配值等于第四匹配值,确定每一目标数据记录对中的第一份数据与第二份数据关系对等。

在本申请的一些实施例中,请参阅图2,本申请实施例提供的数据关联检索方法还可以包括如下步骤:

步骤S105,在对数据库进行数据录入之前,对待录入的数据进行查重操作。

示例性地,假设有两份数据,其中一份数据记载有标题、作者、实验方法、实验条件、实验成分等信息,另外一份数据记载有文献DOI、标题、作者、摘要、全文等信息。由于这两份数据来源不相同,且标题和作者字段的内容都可以能存在特殊字符等原因,导致标题和作者两字段内容不完全相等。然而,这两份数据的实质内容是相同的,均为同一篇文献,因此,当已经有一份数据存储在数据库中时,则无需另外再录入另外一份数据。

在本申请的一些实施例中,步骤S105对待录入的数据进行查重操作的过程,可以包括:

针对目标数据库中的每一条数据记录:

S1,计算该数据记录中的目标字段内容与待录入的数据的目标字段内容的匹配值和反向匹配值。

S2,判断该匹配值和该反向匹配值是否相等。若是,执行S3。

S3,确定待录入的数据与该数据记录存在重复。

其中,所述匹配值用于量化所述目标检索语句中各元素相对于所述数据记录的目标字段内容的匹配情况,所述反向匹配值用于量化所述数据记录的目标字段内容中各元素相对于所述目标检索语句的匹配情况。

在本申请的一些实施例中,上述S1计算该数据记录中的目标字段内容与待录入的数据的目标字段内容的匹配值和反向匹配值的过程,可以包括:

S11,从该数据记录中的目标字段内容中提取出各元素,并利用这些元素构建第一集合。

S12,从待录入的数据的目标字段内容中提取出各元素,并利用这些元素构建第二集合。

S13,对于第一集合中的每一元素,判断该元素是否包含在第二集合中,若是,对第一计数值执行自增1运算,其中,第一计数值的初始值为0。

S14,将第一计数值与第一集合中各元素的数量的比值,确定为匹配值。

S15,对于第二集合中的每一元素,判断该元素是否包含在第一集合中,若是,对第二计数值执行自增1运算,其中,第二计数值的初始值为0。

S16,将第二计数值与第二集合中各元素的数量的比值,确定为反向匹配值。

示例性地,对于前述例子,首先通过机器使用第一份其中1条数据的标题和作者进行分别与第二份所有数据标题和作者分别进行比对,并计算出比对率,比对是会对标题和作者的数据进行拆分为单个单词,并评估出第一份每条数据的标题和作者与第二份数据标题和作者的匹配率最高的那条,然后把结果的数据反向进行比对,如果匹配率相同,那么表明,2条数据为相同文献,存在重复。

下面对本申请实施例提供的数据关联检索装置进行描述,下文描述的数据关联检索装置与上文描述的数据关联检索方法可相互对应参照。

请参见图3,本申请实施例提供的数据关联检索装置,可以包括:

数据记录获取单元21,用于基于目标检索语句,对每一数据库进行检索,得到每一数据库中与所述目标检索语句相匹配的目标数据记录;

数据记录组合单元22,用于将各目标数据记录进行两两组合,得到目标数据记录对,其中,每一目标数据记录对中的两条目标数据记录分属于不同数据库;

匹配信息获取单元23,用于计算每一目标数据记录对中两份目标数据的匹配信息,并基于每一目标数据记录对中两份目标数据的匹配信息,确定所述目标数据记录对的内部关联关系;

关联结果处理单元24,用于基于各目标数据记录对的内部关联关系,生成所述目标检索语句的关联检索结果。

在本申请的一些实施例中,数据记录获取单元21对每一数据库进行检索,得到每一数据库中与所述目标检索语句相匹配的目标数据记录的过程,可以包括:

针对每一数据库中的每一数据记录:

计算所述目标检索语句相对于所述数据记录的目标字段内容的匹配值;

判断所述匹配值是否大于预设第一阈值;

若是,确定所述数据记录为与所述目标检索语句相匹配的目标数据记录;

其中,所述匹配值用于量化所述目标检索语句中各元素相对于所述数据记录的目标字段内容的匹配情况。

在本申请的一些实施例中,数据记录获取单元21计算所述目标检索语句相对于所述数据记录的目标字段内容的匹配值的过程,可以包括:

从所述目标检索语句中提取出各元素;

对于所述各元素中的每一元素,判断所述元素是否包含在所述目标字段内容中,若是,确定所述元素为命中元素;

将命中元素的总数与各元素的总数的比值,确定为所述目标检索语句相对于所述数据记录的目标字段内容的匹配值。

在本申请的一些实施例中,所述目标检索语句为英文文本;数据记录获取单元21从所述目标检索语句中提取出各元素的过程,可以包括:

将所述目标检索语句中的各字母进行小写化处理,将所述目标检索语句中的特殊符号替换为空格,以及删除所述目标检索语句两端的空格和特殊符号,得到第一目标检索语句;

将所述第一目标检索语句中的连续空格替换为单个空格,得到第二目标检索语句;

利用空格作为切割符,将所述第二目标检索语句切割成各元素。

在本申请的一些实施例中,所述目标检索语句为中文文本;数据记录获取单元21从所述目标检索语句中提取出各元素的过程,可以包括:

利用预设的分词算法对所述目标检索语句进行分词,得到各元素。

在本申请的一些实施例中,匹配信息获取单元23计算每一目标数据记录对中两份目标数据的匹配信息的过程,可以包括:

针对对应于所述两份目标数据的每一目标字段对:

获取第一字段内容和第二字段内容,其中,所述目标字段对由第一字段和第二字段构成,所述第一字段内容为所述两份目标数据中第一份目标数据对应于所述第一字段的内容,所述第二字段内容为所述两份目标数据中第二份目标数据对应于所述第二字段的内容;

计算所述第一字段内容相对于所述第二字段内容的第一匹配值,以及计算所述第二字段内容相对于所述第一字段内容的第二匹配值,由所述第一匹配值和第二匹配值构成所述目标字段对的第一匹配值和第二匹配值;

判断所述第一字段内容是否需要去噪,若是,对所述第一字段内容进行去噪处理,得到去噪后的第一字段内容,若否,直接将所述第一字段内容确定为去噪后的第一字段内容;

判断所述第二字段内容是否需要去噪,若是,对所述第二字段内容进行去噪处理,得到去噪后的第二字段内容,若否,直接将所述第二字段内容确定为去噪后的第二字段内容;

计算所述去噪后的第一字段内容相对于所述去噪后的第二字段内容的第三匹配值,以及计算所述去噪后的第二字段内容相对于所述去噪后的第一字段内容的第四匹配值,由所述第三匹配值和第四匹配值构成所述目标字段对的第三匹配值和第四匹配值;

由所述两份目标数据中各目标字段对的第一匹配值、第二匹配值、第三匹配值以及第四匹配值构成所述两份目标数据的匹配信息。

在本申请的一些实施例中,各数据库包括纳米材料数据库、纳米材料制备方法数据库、纳米产品数据库和纳米企业数据库;

匹配信息获取单元23对所述第一字段内容进行去噪处理的过程,可以包括:

获取所述第一字段内容所在的第一数据库以及所述第一字段内容对应的第一字段,所述第一数据库为纳米材料制备方法数据库、纳米产品数据库或纳米企业数据库;

根据所述纳米材料数据库,获取对应于所述第一数据库和所述第一字段的各非关键字;

从所述第一字段内容中剔除各非关键字。

在本申请的一些实施例中,匹配信息获取单元23基于每一目标数据记录对中两份目标数据的匹配信息,确定所述目标数据记录对的内部关联关系的过程,可以包括:

判断是否存在第一匹配值及第二匹配值均大于预设第二阈值的目标字段对;

若是:

从各目标字段对中筛选出第一匹配值及第二匹配值均大于预设第二阈值,且优先级最高的入选字段对;

若所述入选字段对的第一匹配值小于第二匹配值,确定每一目标数据记录对中的第二份数据隶属于第一份数据;

若所述入选字段对的第一匹配值大于第二匹配值,确定每一目标数据记录对中的第一份数据隶属于第二份数据;

若所述入选字段对的第一匹配值等于第二匹配值,确定每一目标数据记录对中的第一份数据与第二份数据关系对等;

若否:

从各目标字段对中筛选出第三匹配值及第四匹配值均大于预设第三阈值,且优先级最高的入选字段对;

若所述入选字段对的第三匹配值小于第四匹配值,确定每一目标数据记录对中的第二份数据隶属于第一份数据;

若所述入选字段对的第三匹配值大于第四匹配值,确定每一目标数据记录对中的第一份数据隶属于第二份数据;

若所述入选字段对的第三匹配值等于第四匹配值,确定每一目标数据记录对中的第一份数据与第二份数据关系对等。

本申请实施例提供的数据关联检索装置可应用于数据关联检索设备,如计算机等。可选的,图4示出了数据关联检索设备的硬件结构框图,参照图4,数据关联检索设备的硬件结构可以包括:至少一个处理器31,至少一个通信接口32,至少一个存储器33和至少一个通信总线34。

在本申请实施例中,处理器31、通信接口32、存储器33、通信总线34的数量为至少一个,且处理器31、通信接口32、存储器33通过通信总线34完成相互间的通信;

处理器31可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路等;

存储器33可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器33存储有程序,处理器31可调用存储器33存储的程序,所述程序用于:

基于目标检索语句,对每一数据库进行检索,得到每一数据库中与所述目标检索语句相匹配的目标数据记录;

将各目标数据记录进行两两组合,得到目标数据记录对,其中,每一目标数据记录对中的两条目标数据记录分属于不同数据库;

计算每一目标数据记录对中两份目标数据的匹配信息,并基于每一目标数据记录对中两份目标数据的匹配信息,确定所述目标数据记录对的内部关联关系;

基于各目标数据记录对的内部关联关系,生成所述目标检索语句的关联检索结果。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:

基于目标检索语句,对每一数据库进行检索,得到每一数据库中与所述目标检索语句相匹配的目标数据记录;

将各目标数据记录进行两两组合,得到目标数据记录对,其中,每一目标数据记录对中的两条目标数据记录分属于不同数据库;

计算每一目标数据记录对中两份目标数据的匹配信息,并基于每一目标数据记录对中两份目标数据的匹配信息,确定所述目标数据记录对的内部关联关系;

基于各目标数据记录对的内部关联关系,生成所述目标检索语句的关联检索结果。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

综上所述:

本申请首先基于目标检索语句,对每一数据库进行检索,得到每一数据库中与所述目标检索语句相匹配的目标数据记录。然后,将各目标数据记录进行两两组合,得到目标数据记录对。其中,每一目标数据记录对中的两条目标数据记录分属于不同数据库。接着,计算每一目标数据记录对中两份目标数据的匹配信息,并基于每一目标数据记录对中两份目标数据的匹配信息,确定所述目标数据记录对的内部关联关系。最后,基于各目标数据记录对的内部关联关系,生成所述目标检索语句的关联检索结果。本申请可以基于目标检索语句找出相匹配的目标数据记录,并能自动生成目标数据记录的内部关联关系,无需人工对目标数据记录进行一一比对,提高了关联检索的效率。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术分类

06120115970891