掌桥专利:专业的专利平台
掌桥专利
首页

一种贵金属材料多源异构数据管理方法及装置

文献发布时间:2023-06-19 18:58:26


一种贵金属材料多源异构数据管理方法及装置

技术领域

本申请涉及贵金属材料数据管理技术领域,为一种贵金属材料多源异构数据管理方法及装置。

背景技术

贵金属因具有优良的物理化学性能(高温抗氧化性和抗腐蚀性)、稳定的电学性能、高催化活性等特点,随现代工业水平的发展,其应用得到空前发展,并且已经成为某些材料领域中不可缺少的关键支撑材料。

当下贵金属材料数据有多种来源,如实验室、高校、企业、互联网、计算、机器学习,根据不同数据类型,还可能划分为结构化数据和非结构化数据,另外随着科学技术的进步,同一种材料在未来还可能新增一些特性。

现有的贵金属材料数据管理方法中,都没有充分的考虑多源异构的场景,如实验室、高校、企业都是各自管理各自产生的贵金属材料数据,并没有把这些数据整合起来做管理、分析、决策。另外不同贵金属材料数据的存储模型也不一样,即使是同一种贵金属材料数据在不同时期,其数据存储模型也有可能不一样。这就迫切的需要一种贵金属材料多源异构数据管理方法来支持贵金属材料数据的数字化建设。

发明内容

为了解决以上的技术问题,本申请提供一种贵金属材料多源异构数据管理方法及装置,通过对多个数据源中的多源异构数据进行集合得到统一结构的数据,完成了数据的统一表示,为系统内多个数据库提供统一的查询,实现多源系统之间的信息共享。

为了达到上述目的,本申请实施例采用的技术方案如下:

第一方面,一种贵金属材料多源异构数据管理方法,应用于服务器,所述服务器与多个数据源连接,多个所述数据源用于采集贵金属材料数据并将所述数据传输至所述服务器,所述方法包括:对多个所述数据源中的协议标签确定所述数据源中的第一类型,基于所述第一类型对所述数据源中的数据进行模式分析并对所述数据源进行数据抽取分别建立局部本体,构建的所述局部本体与各个所述数据源数据库中的数据模式一一对应;计算各个所述数据源中的本体相似度以及基于所述本体相似度确定各个所述数据源对应的所述局部本体的多个映射关系;基于预设置的BP神经网络对所述数据源中的元数据进行属性相似度匹配并建立属性映射关系,基于多个所述映射关系所述属性映射关系将多个所述局部本体结合得到全局本体。

第一方面的第一种实现方式中,基于所述第一类型对所述数据源中的数据进行模式分析并对所述数据源进行数据抽取分别建立局部本体,包括:提取所述数据源中的数据表定义信息、属性字段定义信息、属性取值范围信息、数据表主键和外键信息;将以上信息组成元数据字典,并将所述元数据字典数据模式中信息的组织方式划分,所述元数据字典包括数据表元素、数据字段元素、不同表之间的关系、元素字段之间的联系、字段属性的详细定义信息以及不同数据源的地址信息;将所述元数据字典进行数据抽取并通过ER图进行表示,所述ER图用于表示表、相关字段以及属性之间的从属关系;基于映射工具对所述ER图表示进行映射,得到局部本体。

结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述映射工具包括D2R-MAP、RDB2OWL、BOOTOX、Ontop、MAPONTO、IncMap、Map-on中的任意一种。

第一方面的第三种实现方式中,计算各个所述数据源中的本体相似度包括:基于多个相似度计算模型对所述局部本体进行相似度计算,得到多个相似度矩阵,并融合多个相似度矩阵得到目标相似度矩阵。

结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,基于所述本体相似度确定各个所述数据源对应的所述局部本体的多个映射关系,包括基于所述目标相似度矩阵确定各个所述数据源对应的所述局部本体的多个映射关系。

结合第一方面的第三种可能的实现方式,在第五种可能的实现方式中,多个相似度计算模型包括语义相似度计算模型、字符串相似度计算模型、数据实例相似度计算模型和属性相似度计算模型。

结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,融合多个相似度矩阵得到目标相似度矩阵,包括:获取至少两个待匹配局部本体中的相似度值在横向和纵向与其他元素对比都是最大值的元素个数,以及两个待匹配局部本体对应的概念元素数量,并基于以下公式获取多个相似度矩阵的权值:

其中,number(max

结合第一方面的第六种可能的实现方式,在第七种可能的实现方式中,所述BP神经网络的输入节点的数量为10,对应输出节点的数量为6,所述中间隐藏层的数量为8。

结合第一方面的第七种可能的实现方式,在第八种可能的实现方式中,基于多个所述映射关系所述属性映射关系将多个所述局部本体结合得到全局本体,包括:获取不同局部本体下的概念之间的匹配相似度,基于预设的相似度阈值对所述局部本体下的概念进行融合,得到全局本体。

第二方面,一种贵金属材料多源异构数据管理装置,应用于服务器,所述服务器与多个数据源连接,多个所述数据源用于采集贵金属材料数据并将所述数据传输至所述服务器,所述装置包括:局部本体构建模块,用于对所述数据源中的数据进行模式分析并对所述数据源进行数据抽取分别建立局部本体;映射关系确定模块,用于获取所述数据源中的本体相似度并基于相似度确定各个所述数据源对应的所述剧本本体的多个映射关系;全局本体确定模块,用于基于多个所述映射关系所述属性映射关系将多个所述局部本体结合得到全局本体。

第三方面,提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求上述任一项所述的方法。

第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求上述任一项所述的方法。

本申请实施例提供的技术方案中,对多个数据源通过数据模式构建局部本体,然后通过多种相似度算法计算待匹配本体不同概念之间的映射关系并分别求得相似度矩阵,在多种相似度矩阵结果汇聚时,采用动态自适应权值的方式得出综合相似度矩阵以及综合相似度矩阵中的映射关系,并通过BP神经网络获得元数据对应的映射关系,通过两种映射关系中本体概念的相似度阈值关系将多个局部本体进行融合得到全局本体。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例,其中示例数字在附图的各个视图中代表相似的机构。

图1是本申请实施例提供的终端设备的结构示意图。

图2是本申请的一些实施例所示的数据管理方法的流程图。

图3是根据本申请实施例提供的装置方框示意图。

具体实施方式

为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。

在下面的详细描述中,通过实例阐述了许多具体细节,以便提供对相关指导的全面了解。然而,对于本领域的技术人员来说,显然可以在没有这些细节的情况下实施本申请。在其他情况下,公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述,没有细节,以避免不必要的模糊本申请的方面。

本申请中使用流程图说明根据本申请的实施例的系统所执行的执行过程。应当明确理解的是,流程图的执行过程可以不按顺序执行。相反,这些执行过程可以以相反的顺序或同时执行。另外,可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。

对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。

(1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。

(2)基于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。

(3)BP神经网络,BP神经网络是一种人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。

本申请实施例提供一种终端设备,该终端通过链接通道与多个数据源120通信,并且与多个用户端110通信,其中多个数据源120为数据采集终端,通过多个数据源120实现对于不同场景下的贵金属材料数据的采集。在本实施例中,该终端设备包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序。

在本实施例中,该终端为服务器110,针对于服务器的物理结构,包括存储器、处理器和通信单元。存储器、处理器以及通信单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器用于存储特定的信息和程序,通信单元用于将处理后的信息进行发送至对应的用户端。

本实施例将存储模块划分为两个存储区域,其中一个存储区为程序存储单元,另一个存储区域为数据存储单元。程序存储单元相当于固件区,该区域的读写权限设置为只读模式,其内存储的数据不可擦除和更改。而数据存储单元中的数据可以进行擦除或读写,当数据存储区域的容量已满时,新写入的数据会对最早期的历史数据进行覆盖。

其中,存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Ele超声ric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP))、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的技术方案,主要的应用场景为贵金属材料的数据管理,具体的场景为将实验室、高校、企业、互联网、计算、机器学习等不同来源的贵金属材料数据进行系统整合并对多源数据进行融合,得到数据结构一致的全局数据。在本实施例中,针对于不同场景下的贵金属材料因其来源不同,数据采集端以及数据传输端的协议不同,数据类型不同从而在系统中进行整合的数据类型为多源异构类型数据,而针对于多源异构类型数据在系统或者平台上进行存储以及与用户端进行交互时,需要将数据进行整合。相关数据用户需要对这些数据进行集中的访问查询,但这些系统存储介质不同,数据来源差异较大,数据模式具有很大异构性。这些信息系统存储在分布式环境中,多系统之间的数据可能领域相关但没有统一的查询方式,在进行数据联合分析时,需要访问多个相关的和涉及到的不同来源数据库进行独立查询来进行特定信息的访问。在多源数据库中,各个数据库存放数据的规范存在很大差异、不同的存储介质提供的数据查询接口不同,但是相关数据之间是对同一对象不同角度的描述,数据之间具有密切的联系。不同的数据组织方式中,在对属性字段使用英文进行命名时,存在多义词、缩写词、简写词或者使用了自定义名称等表达形式,这时就会发生异构冲突。多源信息系统之间的分布性、自治性、动态性的特点从而形成了数据的异构,这对数据共享和分析造成很大挑战。并且因为多源异构数据间异构性的存在,使得人们访问相关数据变得异常困难,为了对异构的、独立的、分布的数据信息进行统一表示,于是出现了数据集成。数据集成是指通过某种手段对来自不同数据源的异构数据进行访问,使数据用户更容易使用和访问这些数据。随着技术的发展,数据集成领域在很多方面都得到了扩展,通过数据集成可以完成数据模型的转换,完成数据的统一表示,为系统内多个数据库提供统一的查询,实现多源系统之间的信息共享。

针对于多源异构数据的特点,在现有技术中针对于数据集成目的在于统一对多数据源的表达和查询,通过相关集成模型实现数据的抽取、交换、加载和共享等。在当前数据管理领域中传统的数据集成主要有基于结构的和基于语义的方法。基于结构集成的有联邦数据库、中间件法、数据仓库法;语义法主要是使用语义网络技术,例如模式匹配方法。在现有技术中,数据集成方式存在一定的不足之处,传统的数据集成方案实时性较差,对实时性要求比较高的场景可能会造成一些数据分析延后等弊端。在现有技术中的集成方式中,集成过程往往缺少对数据源以及数据项的语义描述,针对实时要求比较高的场景,如果采用传统集成方式会导致集成准确率较低的问题。

所以,基于以上的技术背景,目前针对于贵金属材料数据管理,本申请提供一种贵金属材料多源异构数据管理方法及装置,通过对多个数据源中的多源异构数据进行集合得到统一结构的数据,完成了数据的统一表示,为系统内多个数据库提供统一的查询,实现多源系统之间的信息共享。

本实施例提供一种贵金属材料多源异构数据管理方法,应用于服务器,包括以下步骤:

步骤S210.对多个所述数据源中的协议标签确定所述数据源中的第一类型,基于所述第一类型对所述数据源中的数据进行模式分析并对所述数据源进行数据抽取分别建立局部本体。

步骤S220.计算各个所述数据源中的本体相似度以及基于所述本体相似度确定各个所述数据源对应的所述局部本体的多个映射关系。

步骤S230.基于预设置的BP神经网络对所述数据源中的元数据进行属性相似度匹配并建立属性映射关系,基于多个所述映射关系所述属性映射关系将多个所述局部本体结合得到全局本体。

在本实施例中,针对于步骤S210主要用于获取多源数据中的局部本体,具体的处理方法为通过数据源中的数据进行模式分析并对数据源进行数据抽取而建立。其中,针对于在数据进行模型分析的必要过程为需要将多个数据源中的协议标签进行确定,因为数据源进行数据采集主要通过通信接口协议获取数据产生端的数据,而根据不同的数据产生端则对应不同的数据采集策略从而对应不同结构的数据,所以通过数据源中的协议标签能够确定数据源的数据类型,并通过数据类型对数据源的数据进行模式分析。

在本实施例中,针对于数据进行模式分析具体包括提取所述数据源中的数据表定义信息、属性字段定义信息、属性取值范围信息、数据表主键和外键信息;将以上信息组成元数据字典,并将所述元数据字典数据模式中信息的组织方式划分,所述元数据字典包括数据表元素、数据字段元素、不同表之间的关系、元素字段之间的联系、字段属性的详细定义信息以及不同数据源的地址信息;将所述元数据字典进行数据抽取并通过ER图进行表示,所述ER图用于表示表、相关字段以及属性之间的从属关系。数据模式与局部本体的区别在于编写语法和语义,在本实施例中本体描述语言OWL具有对应的语法定义,而数据库使用一个ER图即实体关系模型来对模型进行描述。在本实施例中,本体和数据库之间虽然存在一定的差异,然而这两个事物类也拥有一些共同的特征。数据库系统包括实体,这些实体是数据库中包含特征属性的表,同样,每一个本体类也有其自身的属性,数据库属性与本体属性的区别在于依赖关系,本体中的属性不依赖于特定的类,而数据模式中的类依赖于特定的类。其中,数据模式和本体结构相似,可以通过制定的一些规则把数据模式转换为本体,不同的模型映射到本体的结构不同,具体的转换规则和使用的数据模型息息相关。通过数据模式得出所有数据表项,然后对数据表按照以下标准进行划分,并把关系模式到本体的映射用OWL语言描述。具体的在本实施例中,关系模式中的表被定义为本体中的类,并使用owl:Class进行描述。数据表的主键有联合主键构成,也就是说数据表主键由两个字段组成,表一般是关系表。在进行本体转换时,这种关系表不被映射为本体中的类,把两个属性都映射为本体类中的对象属性。对于普通的关系模式表,定义主键时如果没有其余的约束字段,则将这个数据表映射为本体中的类,数据表中的属性字段在本体中映射为数据类型属性。在本实施例中,在进行数据集成之前,需要把数据模式转换为本体的形式。本实施例中涉及的异构数据源众多,如果使用传统的手动构建局部本体的方式不仅费时费力,并且较容易出错。在本体领域,关系模型与本体映射关系建立已有很多成熟的映射工具。在本实施例中,所述映射工具包括D2R-MAP、RDB2OWL、BOOTOX、Ontop、MAPONTO、IncMap、Map-on中的任意一种。

针对于步骤S220,主要是进行映射关系的确定,在本体的构建过程中,为了对局部本体进行统一表示,需要进行本体匹配,通过相关的匹配算法解决本体中的数据异构冲突。本体相似度计算是本体匹配中的核心部分,常见的本体匹配算法是从本体实例、本体属性、本体结构、和本体名称等角度进行计算,但是单一的相似度算法得到的结果相对片面,不能有效的完成匹配任务。本实施例在系统研究各类映射算法的基础上,综合使用了多种相似度算法来计算本体的匹配性,从多方面综合衡量本体之间的匹配关系,并且通过多个局部本体的多个映射关系。

在本实施例中,计算各个所述数据源中的本体相似度具体包括基于多个相似度计算模型对所述局部本体进行相似度计算,得到多个相似度矩阵,并融合多个相似度矩阵得到目标相似度矩阵。

其中,所述本体相似度确定各个所述数据源对应的所述局部本体的多个映射关系,包括基于所述目标相似度矩阵确定各个所述数据源对应的所述局部本体的多个映射关系。

具体的,在本实施例中,多个相似度计算模型包括语义相似度计算模型、字符串相似度计算模型、数据实例相似度计算模型和属性相似度计算模型。

在本实施例中,数据模式中的属性字段都是英文或者字母表达,本体中对应的含义同样使用英文字母进行表达,会存在含义相同但是词形不同单词即异形同义词;或者是词形相同,但是含义不同的单词,例如company可指伙伴或者公司。所以在计算两个单词是否相似时,单词语义是最明显的特征,对单词计算首先需要从语义上进行考虑。基于语义的相似度算法通常需要借助外部工具,本实施例采用WordNet同义词集辅助计算相似度,WordNet是一个由大量单词组成的语义网络,通常用于计算单词的语义相似度。WordNet是一个树状结构,在该结构上根据词条的意义进行分组,每个分组称为一个同义词集合Synset,一个Synset包含所有意义相同的单词,WordNet可以根据两个词汇的最近公共祖先节点、所在深度及路径长度等,来计算两个词的语义相似度,计算公式如下所示:

其中,p指的s

其中,中wordcount(p)表示在WordNet中词义节点及其子节点中所有路径上所包含的单词个数,wordtotal是WordNet中相关单词总数。

设S(s

在本实施例中,针对于在使用词法语义度量之后,得到两个本体中每一对实体的各组成部分在语义上的相似性。在得到语义之间的词汇相似度值后,还需要计算实体在字符串结构上的相似性,从字符串结构上判断单词相似,主要计算规范化后词条向量的相似性。本实施例使用Levenshtein Distanc计算字符串之间的相似度,根据两个字符串之间,将其中一个转换成另一个需要进行的最少操作编辑次数,通过两个名称字符之间转换的难易程度来判断其相似性。本体中的概念和属性名称等都是使用字符串表示的,使用此算法可以进行局部本体中概念名称的相似度计算,在相同场景的上下文中,相同概念可能使用结构相似的字符串表示,字符串插入和删除运算对应于本体概念名称的转化特征。

在本实施例中,针对于本体中两词汇的编辑距离计算如下所示:

其中,editDist(s

其中,length(s

针对于局部本体中包含很多实体,实体中又包含很多实例,本体中的实例数量远大于本体中相关的概念属性。实例信息在格式表达上一般是一致的,在对本体中的概念进行相似度计算时,如果不同概念包含的实例集合存在交集,那么可以认为它们是极有可能相似的,共享实例越多相似度越大。本实施例来计算不同概念之间基于实例的相似度。不同局部本体下映射的实例构成了实例集合,实例集合又表现概念特征,所以可以从两个实例集合的相似性来判定两个概念的相似性。

在本实施例中,本体中的概念属性是本体中的重要特征,因此在进行局部本体之间的相似度计算时,可以着重参考本体中的属性特征。本体中的属性根据表述能力的不同分为两种,分别为表述普通数值特征的数据属性与表述概念与概念之间关联关系的对象属性,两种属性都是对本体概念内部数据结构的描述。如果两个概念属性的定义域和值域在一定程度上是相似的,则两个概念可能是相似的,对象类型属性和数据类型属性共同反应了本体的语义信息。因此可以基于不同属性类型计算相似度,并综合两种类型的计算结果,共同衡量本体概念之间的相似度。

在本实施例中,针对于本体数据进行相似度进行计算包括针对本体数据属性相似度计算以及本体对象属性相似度计算。

在本实施例中,在本体的匹配计算中,使用了基于语义、基于字符串、基于数据实例、基于属性的多种本体相似度计算算法,多种匹配器将会得到多种不同的相似度矩阵,需要对这些不同匹配器得出的相似度矩阵进行融合,融合成最终的相似度矩阵,最后从这个矩阵中提取映射关系。在多种相似度矩阵混合时,根据解决问题不同,有很多的汇聚策略,不同的策略使用的场景和方法不同,如最大值法是在各种计算策略得到的相似度矩阵中选取最大的相似度值,并没有考虑数据类型之间的相互影响,选取的是各个矩阵中的最优情况;均值法对所有算法的计算结果按照同一标准进行分析,这种方式并没有考虑不同相似度匹配器之间的共同点;人工经验权值法在设定时较依赖于经验,并不能适用于任意场景下的混合计算;Sigmoid函数策略根据不同相似度矩阵的特点,汇聚计算所有矩阵的权值大小,Sigmoid函数会把权重往匹配程度较高的部分偏移,因此在矩阵融合过程中并没有充分考虑客观条件的影响。本实施例在本体匹配中,全面考虑不同数据类型对本体匹配结果带来的影响,在权值设置时,采用根据数据特性设定的动态自适应权值方式。

在本实施例中,在多策略混合计算过程中,不同矩阵分配的权值大小应该根据各个匹配器的数据特征来决定,例如某些属性下对照实例数量较少,采用基于实例的相似度算法时,则匹配结果中大部分匹配对的相似度为0,则此时就说明实例在整个匹配环节中起到的作用相对较小,为了使匹配结果更合理,应该降低该部分的权重值,提高其他概念匹配器的权重值。所以本实施例在本体匹配过程中,为了克服人为设定权重值和Sigmoid函数权值设置带来的客观影响,在权值设定时采用动态自适应权值的方式,动态指权值在每个计算过程中都会根据概念数量和数据特征动态变化,自适应指权值是根据匹配中的数值特征确定的。在相似度结果矩阵中,如果两个元素最相似,则两个元素的相似度值比着其他任意元素匹配结果都是最高的,计算值越大说明这一对元素之间相似程度越高,两个元素间的影响程度越大。基于这种依据,按照以下公式:

在本实施例中,使用这种方式,权值的大小根据不同本体中的相关概念情况动态变化,所以同一种属性匹配器在不同匹配过程分配的权值也可能是不一样的,这样就根据不同本体匹配情况实现了权值的动态计算。

在对本体中的概念进行多策略相似度计算时,使用了语义相似度、字符串相似度、实例相似度、属性相似度,使用上述公式对每一个匹配算法的相似度矩阵分别计算权值,得到的对应权值记为α,β,χ,δ,为了方便计算,需要把权值归一化处理,映射到[0,1]区间内,使用以下方式对权值归一化:

求得权值之后,可对多种相似度矩阵汇聚计算,得到概A和概念B之间最终相似度矩阵计算结果Sim(A,B),计算如下所示:

Sim(A,B)=α×Sim

在本实施例中,针对于上述匹配完成后,基于动态自适应权值计算得到综合相似度矩阵,由于该结果过于庞大,元素之间的匹配度还存在不确定性,往往会含有错误匹配,并不能将其作为最终结果返回给用户。不同本体概念间除了一对一关系还有多对一关系、一对多关系、多对多关系,需要把这些映射关系转换为正确的一对一匹配,因此需要对匹配对进行提取。

在选择匹配结果生成映射关系阶段,本实施例选择了一种从稳定匹配问题中启发而来的稳定婚姻算法,以使在混合计算中得到最稳定的匹配。其中针对于稳定婚姻算法为现有算法,在本实施例中不再进行累述。

本实施例通过上述步骤通过数据模式构建局部本体,对待匹配的局部本体之间通过多种相似度计算策略构建属性映射。

在本实施例中,在数据集成任务中除了描述数据模式的本体信息外,数据库中还有丰富的元数据信息,充分利用这些信息可以辅助本体匹配并减少人工对映射结果的干预。因此,为了充分利用数据模式中的元数据信息,本实施例选用BP神经网络算法对局部本体匹配过程进行关联分析。最后通过基于本体和BP神经网络的综合运算,得出最终的映射关系并对异构数据统一表达,进而建立全局本体,数据用户对数据库的联合查询可以转换为对全局本体的访问,进而实现多源异构数据的联合访问。

在匹配运算之前需要进行元数据提取,通过对数据库中数据指标的敏感度分析,对数据全面刻画的指标有数据类型、数据类型长度、是否允许为空、键值类型、数值精度、数值最大值、数值最小值、数值平均值、字段字符比例等。在不同的存储服务中有多种数据类型,例如数值型包含Integer、Int、Long、tinyint、decimal、float等;字符型包含varchar、varchar2、char、tinytext、Enum、text等;还有一些其余类型如time、timestamp、money、datetime、year等类型。

在本实施例中,BP神经网络结构中,神经网络输入节点的数量N=10,对应输出有6个类别,即输出节点数量M=6,中间隐含层设置为(N+M)/2个。

在本实施例中,神经网络训练开始阶段首先进行信息正向传播过程,在网络不断训练过程中,对于期望输出与实际输出之间存在的误差,如果误差大于设定的目标误差大小,BP神经网络会进入误差反向传播阶段,神经网络会通过梯度下降法不断调整各个神经元的权值,经过多次训练逐渐减小误差使神经网络的输出尽可能的接近期望输出,误差小于设定误差时,BP神经网络就会结束迭代训练过程。

在本实施例中,BP神经网络解决不同信息源异构数据模式中的属性匹配问题,关键就是要建立起基于BP神经网络的属性匹配模型。在建立模型之前,首先要根据基于本体的相似度匹配算法找出源匹配元素集合和目的匹配元素集合,根据源属性集合和目的属性集合建立BP神经网络结构。其次,将不同数据模式中各属性上的特征向量作为神经网络的输入进行训练。

在本实施例中,局部本体匹配与基于神经网络的属性匹配都是为了全局本体融合,本体融合就是通过对两个或者多个本体的分析,找出本体之间的相关联的概念与属性以及不同点,本实施例的局部本体是通过数据模式构建的,异构本体之间的异同点即异构数据模式之间的异同点,通过对不同本体中概念与属性的计算,并结合不同异构本体各自所具有的特征,然后将两个或者多个本体合并成一个可以表达全局领域知识的统一本体。在本实施例中本体融合过程中,一个本体和另一本体分别表示同一领域下的不同局部本体,不同本体中的相关概念存在匹配关系时用虚线连接。进行本体融合时,就是需要找出不同本体概念之间的映射匹配关系,对于映射关系的寻找,本实施例通过数据模式到本体转换、本体匹配技术、元数据技术以及神经网络技术,综合多方面数据特征解决异构本体之间的匹配问题。

本申请实施例提供的技术方案中,对多个数据源通过数据模式构建局部本体,然后通过多种相似度算法计算待匹配本体不同概念之间的映射关系并分别求得相似度矩阵,在多种相似度矩阵结果汇聚时,采用动态自适应权值的方式得出综合相似度矩阵以及综合相似度矩阵中的映射关系,并通过BP神经网络获得元数据对应的映射关系,通过两种映射关系中本体概念的相似度阈值关系将多个局部本体进行融合得到全局本体。

本实施例通过相似度以及BP神经网络实现对于多源异构数据的本体融合,再通过本体融合实现多源异构数据中的数据融合或数据集合实现对于多源异构数据的整体性收录和管理。

并且,参阅图3,本实施例提供一种贵金属材料多源异构数据管理装置300,应用于服务器,所述服务器与多个数据源连接,多个所述数据源用于采集贵金属材料数据并将所述数据传输至所述服务器,所述装置包括:局部本体构建模块310,用于对所述数据源中的数据进行模式分析并对所述数据源进行数据抽取分别建立局部本体。映射关系确定模块320,用于获取所述数据源中的本体相似度并基于相似度确定各个所述数据源对应的所述剧本本体的多个映射关系。全局本体确定模块330,用于基于多个所述映射关系所述属性映射关系将多个所述局部本体结合得到全局本体。

需要理解的是,针对上述内容没有进行名词解释的技术术语,本领域技术人员可以根据上述所公开的内容进行前后推导毫无疑义地确定其所指代的含义在此均不作限定。

本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及偏好标签的技术特征/技术术语进行确定,例如阈值、阈值区间、阈值范围等。对于一些未作解释的技术特征术语,本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导,从而清楚、完整地实施上述技术方案。未作解释的技术特征术语的前缀,例如“第一”、“第二”、“示例”、“目标”等,可以根据前后文进行毫无疑义地推导和确定。未作解释的技术特征术语的后缀,例如“集合”、“列表”等,也可以根据前后文进行毫无疑义地推导和确定。

本申请实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。

上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可以对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时,本申请使用了特定术语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同部分两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的至少一个实施例中的某些特征、结构或特点可以进行适当的组合。

另外,本领域普通技术人员可以理解的是,本申请的各个方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可以被称为“单元”、“组件”或“系统”。此外,本申请的各方面可以表现为位于至少一个计算机可读介质中的计算机产品,所述产品包括计算机可读程序编码。

计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤缆线、RF、或类似介质、或任何上述介质的组合。

本申请各方面执行所需的计算机程序码可以用一种或多种程序语言的任意组合编写,包括面向对象程序设计,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET,Python等,或类似的常规程序编程语言,如"C"编程语言,Visual Basic,Fortran2003,Perl,COBOL 2002,PHP,ABAP,动态编程语言如Python,Ruby和Groovy或其它编程语言。所述程式设计编码可以完全在用户计算机上执行、或作为独立的软体包在用户计算机上执行、或部分在用户计算机上执行部分在远程计算机执行、或完全在远程计算机或服务器上执行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网络(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。

此外,除非申请专利范围中明确说明,本申请所述处理元件和序列的顺序、数位字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的申请专利范围并不仅限于披露的实施例,相反,申请专利范围旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件装置实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或行动装置上安装所描述的系统。

同样应当理解的是,为了简化本申请揭示的表述,从而帮助对至少一个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。

相关技术
  • 一种基于多源异构海量数据的深度分析方法及装置
  • 一种数据源的管理方法和装置
  • 一种基于贵金属材料多源异构数据管理系统及方法
  • 一种基于多源多结构数据的贵金属文件管理方法及装置
技术分类

06120115752922