掌桥专利:专业的专利平台
掌桥专利
首页

一种数据融合方法、装置、存储介质及电子设备

文献发布时间:2023-06-19 09:35:27


一种数据融合方法、装置、存储介质及电子设备

技术领域

本公开涉及数据处理技术领域,特别涉及一种数据融合方法、装置、存储介质及电子设备。

背景技术

威胁情报是基于证据的知识,包括场景、机制、指标、含义和可操作的建议,这些知识是关于现存的或是即将出现的针对资产的威胁或危险的,可为主体响应相关威胁或危险提供决策信息。实际中,情报数据的来源多种多样,如安全厂商、黑客论坛、安全资讯、社交账号、威胁共享平台等都会发布各种形式的情报数据或者情报素材;而情报处理平台首先要解决的问题就是多源异构数据的处理,之后将处理过的多源情报接入自有平台,对外提供统一的数据服务。

现有的多源数据融合主要是基于新获取的原始数据和已存在的最新原始数据进行迭代式融合处理的方法的得到最新的复合数据,也即将新取的原始数据与当前已存在的最新原始数据进行融合生成新的一条复合数据;之后,将新获取的原始数据和与上次得到的复合数据进行融合,如此重复迭代。但,该融合的过程中,去除一部分数据使得复合数据不完整,也即复合数据的准确性、全面性均较差,还会导致后续进行追踪溯源的难度较大。

发明内容

有鉴于此,本公开实施例的目的在于提供一种数据融合方法、装置、存储介质及电子设备,用于解决现有技术中得到的复合数据的准确性、全面性均较差,基于复合数据进行追踪溯源的难度较大的问题。

第一方面,本公开实施例提供了一种数据融合方法,其中,包括:

获取数据库中的第一数据;

基于所述第一数据的类型信息以及目标关键字,利用所述第一数据生成多个集合;

分别对每个所述集合中的第一数据进行融合,得到每个所述集合对应的复合数据。

在一种可能的实施方式中,还包括:

获取原始数据;

基于字段类型库中包含的多个字段类型,对所述原始数据进行标准化,得到第一数据;其中,所述第一数据包括至少一个字段;

分别确定所述第一数据的第一时刻、所述数据库中历史数据的历史时刻中与当前时刻的时间间隔;

在所述第一时刻与所述当前时刻的时间间隔小于所述历史时刻与所述当前时刻的时间间隔的情况下,将所述第一数据存储至所述数据库。

在一种可能的实施方式中,所述分别对每个所述集合中的第一数据进行融合,得到每个所述集合对应的复合数据,包括:

确定所述集合中每个所述字段类型对应的所有字段;

针对每个所述字段类型,对该字段类型对应的所有字段进行融合,得到每个所述字段类型对应的子复合数据;

基于所有所述子复合数据生成所述集合对应的复合数据。

在一种可能的实施方式中,所述字段类型包括单值类型、组合类型、键值对类型以及数组类型。

在一种可能的实施方式中,所述对该字段类型对应的所有字段进行融合,得到每个所述字段类型对应的子复合数据,包括:

对所有所述字段进行清洗;

基于每个所述字段所属的第一数据的有效期限,确定清洗后的所述字段是否具备有效性;

从具备有效性的字段中筛选目标字段;

基于所述目标字段、除所述目标字段之外的其他具备有效性的字段以及不具备有效性的字段,生成每个所述字段类型对应的子复合数据。

在一种可能的实施方式中,所述从具备有效性的字段中筛选目标字段,包括:

基于每个所述具备有效性的字段对应的来源的优先等级,确定该具备有效性的字段的优先等级;

将所有所述具备有效性的字段中优先等级最高的字段作为所述目标字段。

在一种可能的实施方式中,所述数据融合方法还包括:

基于所述历史数据确定每个字段对应的来源的可信度;

基于所述来源的可信度确定所述来源的优先等级。

第二方面,本公开实施例还提供了一种数据融合装置,其包括:

第一获取模块,其配置地获取数据库中的第一数据;

划分模块,其配置地基于所述第一数据的类型信息以及目标关键字,利用所述第一数据生成多个集合;

融合模块,其配置地分别对每个所述集合中的第一数据进行融合,得到每个所述集合对应的复合数据。

第三方面,本公开还提供了一种存储介质,其中,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的数据融合方法的步骤。

第四方面,本公开还提供了一种电子设备,其中,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如所述的数据融合方法的步骤。

本公开实施例提供的数据融合方法,通过对数据库中的所有第一数据进行划分,并对划分得到的每个集合分别进行数据融合,也即每次进行数据融合均对数据库中所有的第一数据进行融合,避免了原始数据的丢失,提高了复合数据的准确性及全面性,进而降低了后续基于复合数据进行追踪溯源的难度。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1示出了本公开所提供的数据融合方法的流程图;

图2示出了本公开所提供的数据融合方法中基于第一分配值对应的分配信息和第一分配值,确定第二分配值的流程图;

图3示出了本公开所提供的数据融合方法中基于网络地址和第一分配值,确定多个第三分配值的流程图;

图4示出了本公开所提供的数据融合方法中从第一分配值和多个第三分配值中筛选出第二分配值的流程图;

图5示出了本公开所提供的数据融合方法中基于第一分配值对应的分配信息和每个第三分配值对应的分配信息,从第一分配值和多个第三分配值中筛选出第二分配值的流程图;

图6示出了本公开所提供的数据融合方法中利用第二分配值更新第一分配值的流程图;

图7示出了本公开所提供的数据融合装置的结构示意图;

图8示出了本公开所提供的电子设备的结构示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更加清楚,下面将结合本公开的附图,对本公开的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

为了保持本公开的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。

第一方面,为便于对本公开进行理解,首先对本公开所提供的一种数据融合方法进行详细介绍。如图1所示,为本公开实施例提供的数据融合方法的流程图,具体包括以下步骤:

S101,获取数据库中的第一数据。

这里,数据库为预先建立的,其用于存储第一数据,其中,该数据库可以基于应用的场景、领域等分别进行建立,例如,技术领域的对应第一数据库,产品领域的对应第二数据库等。

值得说明的是,数据库中第一数据的数量是动态变化的,随着时间段的延长以及公众信息的不断出现,该数据库中第一数据的数量增加;当然,也存在一段时间内未出现新的公众信息,此时数据库中第一数据的数量便不会增加。

具体地,按照图2所示出的方法来得到包含有第一数据的数据库,具体步骤如S201-S204。

S201,获取原始数据。

考虑到信息技术的多样性,发布公众信息的平台、渠道等多种多样,因此,原始数据的来源可以为多个,例如安全厂商、黑客论坛、安全资讯、社交账号、威胁共享平台等。

利用爬虫等其他手段能够实时获取大量的有针对性的原始数据。

S202,基于字段类型库中包含的多个字段类型,对原始数据进行标准化,得到第一数据;其中,第一数据包括至少一个字段。

这里,建立数据库的同时,针对该数据库设置了其对应的字段类型库,该字段类型库中包含有多个字段类型,其中,可以根据数据库所属的领域、所属的场景等确定每个字段类型,其中,字段按类型至少包括来源、时间、形式、关键字等。

基于多个字段类型对原始数据进行标准化,也即将原始数据按照字段类型分为至少一个字段,也即第一数据包括至少一个字段,并且,每个字段可以标识有其字段类型等。

S203,分别确定第一数据的第一时刻、数据库中历史数据的历史时刻中与当前时刻的时间间隔。

S204,在第一时刻与当前时刻的时间间隔小于历史时刻与当前时刻的时间间隔的情况下,将第一数据存储至数据库。

在数据库中未存储历史数据的情况下,可以直接将得到的第一数据存储至数据库中。

在数据库中已经存储有历史数据的情况下,从第一数据的所有字段中查找第一数据的第一时刻,该第一时刻为第一数据对应的原始数据的生成时刻;同时,针对每个历史数据,从历史数据的所有字段中查找该历史数据的历史时刻,同样地,该历史时刻为历史数据对应的原始数据的生成时刻。

在查找到第一时刻和所有的历史时刻之后,分别计算第一时刻与当前时刻之间的时间间隔以及每个历史时刻与当前时刻的时间间隔,若第一时刻与当前时刻的时间间隔小于历史时刻与当前时刻的时间间隔,则将第一数据存储至数据库;若第一时刻与当前时刻的时间间隔大于或等于历史时刻与当前时刻的时间间隔,则不再将第一数据存储至数据库,以避免数据库中存在重复的第一数据,导致融合得到的复合数据准确性较低的问题。

S102,基于第一数据的类型信息以及目标关键字,利用第一数据生成多个集合。

通常,在获取原始数据时,均为有针对性的获取,例如预先确定原始数据的目标来源、目标类型等,在获取原始数据的过程中,仅在目标来源中查找目标类型对应的原始数据即可,无需获取其他的数据。

由于预先确定的目标类型为多个,因此,在获取到原始数据并得到其对应的第一数据之后,基于第一数据的类型信息(也即第一数据对应的原始数据的目标类型),将所有第一数据划分为多个候选集合。具体地,可以预先根据目标类型确定每个候选集合,例如每个目标类型对应设置一个候选集合等,在确定第一数据对应的目标类型之后将该第一数据存储至其对应的目标类型对应的候选集合中。

由于在爬取数据时预先确定的目标类型为较为宽泛的类型,也即目标类型还可以细分为多个子类型,例如目标类型为IP地址时,其获取到的可以包括地址A对应的第一数据,地址B对应的第一数据,地址C对应的第一数据等;并且,在进行数据融合时为了确保融合的针对性及准确性,进一步地,基于目标关键字来从其所属目标类型对应的候选集合中筛选出目标关键字对应的第一数据以生成一个集合。其中,目标关键字为预先确定的,其标识目标类型中的一个子类型,当然每个目标类型对应的目标关键字不同。

S103,分别对每个集合中的第一数据进行融合,得到每个集合对应的复合数据。

针对每个集合,对该集合中的第一数据进行融合,以得到该集合对应的复合数据,也即每个集合均对应有一条复合数据。

本申请实施例通过对数据库中的所有第一数据进行划分,并对划分得到的每个集合分别进行数据融合,也即每次进行数据融合均对数据库中所有的第一数据进行融合,避免了原始数据的丢失,提高了复合数据的准确性及全面性,进而降低了后续基于复合数据进行追踪溯源的难度。

具体地,图3示出了对每个集合中的第一数据进行融合的方法步骤,具体包括S301-S303。

S301,确定集合中每个字段类型对应的所有字段。

这里,每个集合中的第一数据均包括至少一个字段,且每个字段均对应有字段类型,基于每个字段对应的字段类型,查找每个字段类型对应的所有字段。

值得说明的是,在对原始数据进行标准化时,虽然是按照预设的目标类型进行划分字段,但得到的第一数据中的字段并非均能对应所有的目标类型,例如,目标类型为类型A、类型B、类型C、类型D,但第一数据中不存在类型C对应的字段,也即,其仅包含三个字段,也即类型A对应的字段、类型B对应的字段以及类型D对应的字段。

S302,针对每个字段类型,对该字段类型对应的所有字段进行融合,得到每个字段类型对应的子复合数据。

其中,字段类型包括单值类型、组合类型、键值对类型以及数组类型,其中,单值类型为一个单值,例如一个字符串、数字、布尔值等,不同编程语言实现方式不同;组合类型是由多个单值组成的,也即包括多个字符串或数字等;键值对类型为存在映射关系的多组字符串、数字、布尔值等,也即该映射关系是一一对应的;数组类型为存在映射关系的多个字符串、数字、布尔值等,其映射关系是一对多。

在得到每个字段类型对应的所有字段之后,分别对每个字段类型对应的所有字段进行融合,得到每个字段类型对应的子复合数据。

S303,基于所有子复合数据生成集合对应的复合数据。

在得到每个字段类型对应的子复合数据之后,利用所有的子复合数据生成一个复合数据,该复合数据即为该集合对应的复合数据,也即每个集合分别对应有一个复合数据。例如,可以预先将集合对应的复合数据分为预设数量的字段,其中,该预设数量可以与字段类型的数量相同,之后将每个子复合数据填充至复合数据中相应的位置,以得到复合数据。在实际应用中,复合数据中每个字段类型对应的子复合数据的位置可以固定,以便于用户查看方便;当然,也可以将所有的子复合数据随机放置在复合数据中的每个位置等。

当然,还可以将每个集合对应的复合数据进行组合,以得到数据库对应的综合数据,本申请实施例对此不做具体限定。

这里,通过分别对每个字段类型对应的所有字段进行融合,并利用得到的子复合数据生成集合对应的复合数据,能够在一定程度上提高复合数据的准确性。

进一步地,可以参照图4示出的S401-S404来对该字段类型对应的所有字段进行融合,以得到每个字段类型对应的子复合数据,具体如下:

S401,对所有字段进行清洗。

这里,原始数据中可能存在一些空值例如null、空格等,在对原始数据进行标准化得到的第一数据同样存在该空值,因此,需要对字段进行清洗以去除空值,以避免空值影响复合数据的准确性。

并且,针对不同的字段类型还存在如下清洗的区别:

针对单值类型和组合类型,可以仅进行去除空值的处理;针对键值对类型,除了进行去除空值的处理,还需要将不存在一一对应的映射关系的字段进行去除;针对数组类型,除了进行去除空值的处理,还需要将不存在一对多的映射关系的字段进行去除。

S402,基于每个字段所属的第一数据的有效期限,确定清洗后的字段是否具备有效性。

考虑到网络上的部分数据存在有效期限,在其超过有效期限之后,其产生的情报便无意义;因此,需要判断每个字段的有效性。具体地,查找每个清洗后的字段所属的第一数据的有效期限,也即该第一数据对应的原始数据的有效期限,该第一数据的有效期限即为该字段的有效期限,之后,基于该有效期限确定该清洗后的字段是否具备有效性。

例如,该清洗后的字段的有效期限为24小时,并且该清洗后的字段对应的原始数据为2020年10月10日00:00时生成,则在2020年10月11日00:00时之前,该清洗后的字段具备有效性;在2020年10月11日00:00时之后,该清洗后的字段不具备有效性。

S403,从具备有效性的字段中筛选目标字段。

在确定出具备有效性的字段之后,从所有的具备有效性的字段中筛选出一个字段作为目标字段,以利用该目标字段生成子复合数据。

具体地,若存在一个具备有效性的字段,则直接将该具备有效性的字段作为目标字段;若存在多个具备有效性的字段,则参照图5示出的方法来从具备有效性的字段中筛选目标字段,具体步骤如下:

S501,基于每个具备有效性的字段对应的来源的优先等级,确定该具备有效性的字段的优先等级。

这里,具备有效性的字段的来源也即该字段所属的第一数据的来源,也即该第一数据对应的原始数据的来源,当然,可以通过遍历该字段所属的第一数据的所有字段来确定来源。在确定具备有效性的字段的来源之后,将该来源对应的优先等级作为该具备有效性的字段的优先等级。

当然,在实际应用中还存在清洗后的字段均不具备有效性的情况。

进一步地,本公开实施例还在图6中示出了确定来源的优先等级的方法,具体包括S601-S602。

S601,基于历史数据确定每个字段对应的来源的可信度。

S602,基于来源的可信度确定来源的优先等级。

在具体实施中,根据对历史数据的分析可以确定从不同来源得到的原始数据其可信程度不同,例如从官方网站、学术论坛中获取到的原始数据其可信程度较高,从微博、博客中获取到的原始数据其可信程度较低等;因此,预先针对每个来源设置了相应的优先等级,具体地,将可信程度较高的原始数据的来源设置为较高的优先等级,将可信程度较低的原始数据的来源设置为较低的优先等级。

S502,将所有具备有效性的字段中优先等级最高的字段作为目标字段。

在确定每个具备有效性的字段的优先等级之后,从所有具备有效性的字段中选取优先等级最高的字段,也即该字段类型对应的所有字段中优先等级最高的字段,将其作为该字段类型对应的目标字段。

S404,基于目标字段、除目标字段之外的其他具备有效性的字段以及不具备有效性的字段,生成每个字段类型对应的子复合数据。

在确定目标字段之后,基于目标字段生成该目标字段对应的字段类型对应的子复合数据。考虑到若仅利用目标字段生成子复合数据,仍会导致原始数据丢失,因此,本公开的数据融合方法中同时利用目标字段、除目标字段之外的其他具备有效性的字段以及不具备有效性的字段来生成子复合数据,以确保融合数据的完整性,能够便于后续基于复合数据进行追踪溯源,降低了追踪溯源的难度。其中,生成的子复合数据可以将目标字段与除目标字段之外的其他具备有效性的字段和不具备有效性的字段进行明显的区分,例如设置不同的显示颜色等,以便用户进行查询;考虑到部分用户可能只查询目标字段相关的内容,在特殊情况下才对除目标字段之外的其他具备有效性的字段和不具备有效性的字段进行查询,因此,还可以先将除目标字段之外的其他具备有效性的字段和不具备有效性的字段进行组合、打包等形成一个非目标字段,之后利用目标字段以及非目标字段生成子复合数据,当然,也可以对目标字段和非目标字段进行明显的区分等,本公开实施例对此不做具体限定。

本公开提供的数据融合方法,通过对数据库中的所有第一数据进行划分,并对划分得到的每个集合分别进行数据融合,也即每次进行数据融合均对数据库中所有的第一数据进行融合,避免了原始数据的丢失,提高了复合数据的准确性及全面性,进而降低了后续基于复合数据进行追踪溯源的难度。

基于同一发明构思,本公开的第二方面还提供了一种与数据融合方法对应的数据融合装置,由于本公开中的装置解决问题的原理与本公开上述数据融合方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

参见图7所示,数据融合装置包括:

第一获取模块701,其配置地获取数据库中的第一数据;

划分模块702,其配置地基于所述第一数据的类型信息以及目标关键字,利用所述第一数据生成多个集合;

融合模块703,其配置地分别对每个所述集合中的第一数据进行融合,得到每个所述集合对应的复合数据。

在另一实施例中,所述数据融合装置还包括:

第二获取模块704,其配置地获取原始数据;

标准化模块705,其配置地基于字段类型库中包含的多个字段类型,对所述原始数据进行标准化,得到第一数据;其中,所述第一数据包括至少一个字段;

确定模块706,其配置地分别确定所述第一数据的第一时刻、所述数据库中历史数据的历史时刻中与当前时刻的时间间隔;

存储模块707,其配置地在所述第一时刻与所述当前时刻的时间间隔小于所述历史时刻与所述当前时刻的时间间隔的情况下,将所述第一数据存储至所述数据库。

在另一实施例中,所述融合模块703,包括:

第一确定单元,其配置地确定所述集合中每个所述字段类型对应的所有字段;

融合单元,其配置地针对每个所述字段类型,对该字段类型对应的所有字段进行融合,得到每个所述字段类型对应的子复合数据;

生成单元,其配置地基于所有所述子复合数据生成所述集合对应的复合数据。

在另一实施例中,所述融合单元具体地配置为:

对所有所述字段进行清洗;

基于每个所述字段所属的第一数据的有效期限,确定清洗后的所述字段是否具备有效性;

从具备有效性的字段中筛选目标字段;

基于所述目标字段、除所述目标字段之外的其他具备有效性的字段以及不具备有效性的字段,生成每个所述字段类型对应的子复合数据。

在另一实施例中,所述融合单元还配置为:

基于每个所述具备有效性的字段对应的来源的优先等级,确定该具备有效性的字段的优先等级;

将所有所述具备有效性的字段中优先等级最高的字段作为所述目标字段。

在另一实施例中,所述融合模块703,还包括:

第二确定单元,其配置地基于所述历史数据确定每个字段对应的来源的可信度;

第三确定单元,其配置地基于所述来源的可信度确定所述来源的优先等级。

本公开提供的数据融合方法,通过对数据库中的所有第一数据进行划分,并对划分得到的每个集合分别进行数据融合,也即每次进行数据融合均对数据库中所有的第一数据进行融合,避免了原始数据的丢失,提高了复合数据的准确性及全面性,进而降低了后续基于复合数据进行追踪溯源的难度。

本公开的第三方面还提供了一种存储介质,该存储介质为计算机可读介质,存储有计算机程序,该计算机程序被处理器执行时实现本公开任意实施例提供的方法,包括如下步骤:

S11,获取数据库中的第一数据;

S12,基于所述第一数据的类型信息以及目标关键字,利用所述第一数据生成多个集合;

S13,分别对每个所述集合中的第一数据进行融合,得到每个所述集合对应的复合数据。

计算机程序被处理器执行数据融合方法时,还具体被处理器执行如下步骤:获取原始数据;基于字段类型库中包含的多个字段类型,对所述原始数据进行标准化,得到第一数据;其中,所述第一数据包括至少一个字段;分别确定所述第一数据的第一时刻、所述数据库中历史数据的历史时刻中与当前时刻的时间间隔;在所述第一时刻与所述当前时刻的时间间隔小于所述历史时刻与所述当前时刻的时间间隔的情况下,将所述第一数据存储至所述数据库。

计算机程序被处理器执行分别对每个所述集合中的第一数据进行融合,得到每个所述集合对应的复合数据时,具体被处理器执行如下步骤:确定所述集合中每个所述字段类型对应的所有字段;针对每个所述字段类型,对该字段类型对应的所有字段进行融合,得到每个所述字段类型对应的子复合数据;基于所有所述子复合数据生成所述集合对应的复合数据。

计算机程序被处理器执行对该字段类型对应的所有字段进行融合,得到每个所述字段类型对应的子复合数据时,还被处理器执行如下步骤:对所有所述字段进行清洗;基于每个所述字段所属的第一数据的有效期限,确定清洗后的所述字段是否具备有效性;从具备有效性的字段中筛选目标字段;基于所述目标字段、除所述目标字段之外的其他具备有效性的字段以及不具备有效性的字段,生成每个所述字段类型对应的子复合数据。

计算机程序被处理器执行从具备有效性的字段中筛选目标字段时,还被处理器执行如下步骤:基于每个所述具备有效性的字段对应的来源的优先等级,确定该具备有效性的字段的优先等级;将所有所述具备有效性的字段中优先等级最高的字段作为所述目标字段。

计算机程序被处理器执行数据融合方法时,还被处理器执行如下步骤:基于所述历史数据确定每个字段对应的来源的可信度;基于所述来源的可信度确定所述来源的优先等级。

本公开提供的数据融合方法,通过对数据库中的所有第一数据进行划分,并对划分得到的每个集合分别进行数据融合,也即每次进行数据融合均对数据库中所有的第一数据进行融合,避免了原始数据的丢失,提高了复合数据的准确性及全面性,进而降低了后续基于复合数据进行追踪溯源的难度。

需要说明的是,本公开上述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

本公开的第四方面还提供了一种电子设备,如图8所示,该电子设备至少包括存储器801和处理器802,存储器801上存储有计算机程序,处理器802在执行存储器801上的计算机程序时实现本公开任意实施例提供的方法。示例性的,电子设备计算机程序执行的方法如下:

S21,获取数据库中的第一数据;

S22,基于所述第一数据的类型信息以及目标关键字,利用所述第一数据生成多个集合;

S23,分别对每个所述集合中的第一数据进行融合,得到每个所述集合对应的复合数据。

处理器在执行存储器上存储的数据融合方法,还执行如下计算机程序:获取原始数据;基于字段类型库中包含的多个字段类型,对所述原始数据进行标准化,得到第一数据;其中,所述第一数据包括至少一个字段;分别确定所述第一数据的第一时刻、所述数据库中历史数据的历史时刻中与当前时刻的时间间隔;在所述第一时刻与所述当前时刻的时间间隔小于所述历史时刻与所述当前时刻的时间间隔的情况下,将所述第一数据存储至所述数据库。

处理器在执行存储器上存储的分别对每个所述集合中的第一数据进行融合,得到每个所述集合对应的复合数据时,还执行如下计算机程序:确定所述集合中每个所述字段类型对应的所有字段;针对每个所述字段类型,对该字段类型对应的所有字段进行融合,得到每个所述字段类型对应的子复合数据;基于所有所述子复合数据生成所述集合对应的复合数据。

处理器在执行存储器上存储的对该字段类型对应的所有字段进行融合,得到每个所述字段类型对应的子复合数据时,还执行如下计算机程序:对所有所述字段进行清洗;基于每个所述字段所属的第一数据的有效期限,确定清洗后的所述字段是否具备有效性;从具备有效性的字段中筛选目标字段;基于所述目标字段、除所述目标字段之外的其他具备有效性的字段以及不具备有效性的字段,生成每个所述字段类型对应的子复合数据。

处理器在执行存储器上存储的从具备有效性的字段中筛选目标字段时,还执行如下计算机程序:基于每个所述具备有效性的字段对应的来源的优先等级,确定该具备有效性的字段的优先等级;将所有所述具备有效性的字段中优先等级最高的字段作为所述目标字段。

处理器在执行存储器上存储的数据融合方法时,还执行如下计算机程序:基于所述历史数据确定每个字段对应的来源的可信度;基于所述来源的可信度确定所述来源的优先等级。

本公开提供的数据融合方法,通过对数据库中的所有第一数据进行划分,并对划分得到的每个集合分别进行数据融合,也即每次进行数据融合均对数据库中所有的第一数据进行融合,避免了原始数据的丢失,提高了复合数据的准确性及全面性,进而降低了后续基于复合数据进行追踪溯源的难度。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本邻域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

以上对本公开多个实施例进行了详细说明,但本公开不限于这些具体的实施例,本邻域技术人员在本公开构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本公开所要求保护的范围之内。

相关技术
  • 一种数据融合方法、装置、电子设备及存储介质
  • 一种数据融合方法、装置、存储介质及电子设备
技术分类

06120112222535