数据处理方法及装置

文献发布时间：2023-06-23 06:30:03

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理方法及装置。

背景技术

数据集成是把不同来源、格式和特点性质的数据在逻辑上或物理上有机的集中，从而为企业提供全面的数据共享。

在一些场景下，对于数据集成的数据分析的方式是通过人为盘点的方式，具体是与数据所有部门会议拉通，对数据的元数据进行分析以及建立台账，供后续数据集成的数仓建设提供输入，其中，元数据为描述数据的数据，主要是描述数据属性的信息，用来支持如指示数据的存储位置、历史数据、资源查找、文件记录等功能。采用人工盘点的方式，不仅数据分析的效率低下，且其仅通过对数据的元数据进行分析，无法保证数据的准确信息，导致数据分析的结果的准确率较为低下。

发明内容

本申请实施例的目的是提供一种数据处理方法及装置，以解决数据分析效率和数据分析的结果的准确率低下的问题。

为了解决上述技术问题，本申请实施例是这样实现的：

第一方面，本申请实施例提供了一种数据处理方法，包括：接收对数据集成中业务数据的分析指令；响应于所述分析指令，获取所述业务数据的元数据和所述业务数据的数据内容，所述元数据指示所述业务数据的数据属性；将所述元数据输入到第一模型中进行第一处理，得到第一处理结果，所述第一处理用于计算所述元数据与参考元数据之间的相似度；将所述数据内容输入到第二模型中进行第二处理，得到第二处理结果，所述第二处理用于计算所述数据内容与参考数据内容之间的相似度；根据所述第一处理结果和所述第二处理结果确定所述业务数据的第三处理结果。

第二方面，本申请实施例提供了一种数据处理装置，数据处理装置包括：接收模块，用于接收对数据集成中业务数据的分析指令；获取模块，用于响应于所述分析指令，获取所述业务数据的元数据和所述业务数据的数据内容，所述元数据指示所述业务数据的数据属性；处理模块，用于将所述元数据输入到第一模型中进行第一处理，得到第一处理结果，所述第一处理用于计算所述元数据与参考元数据之间的相似度；所述处理模块，还用于将所述数据内容输入到第二模型中进行第二处理，得到第二处理结果，所述第二处理用于计算所述数据内容与参考数据内容之间的相似度；确定模块，用于根据所述第一处理结果和所述第二处理结果确定所述业务数据的第三处理结果。

第三方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线；其中，处理器、通信接口以及存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现如第一方面的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现如第一方面的方法步骤。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面的方法步骤。

由以上本申请实施例提供的技术方案可见，通过接收对数据集成中业务数据的分析指令；响应于所述分析指令，能够自动化的对数据集成中的业务数据进行分析处理，具体是获取所述业务数据的元数据和所述业务数据的数据内容，所述元数据指示所述业务数据的数据属性；将所述元数据输入到第一模型中进行第一处理，得到第一处理结果，所述第一处理用于计算所述元数据与参考元数据之间的相似度；将所述数据内容输入到第二模型中进行第二处理，得到第二处理结果，所述第二处理用于计算所述数据内容与参考数据内容之间的相似度；根据所述第一处理结果和所述第二处理结果确定所述业务数据的第三处理结果。如此，在接收到分析指令后，以自动化的方式获取元数据和数据内容，并结合第一模型和第二模型分别对元数据和数据内容进行处理，提高了数据处理效率，且通过对业务数据的元数据和数据内容均进行分析，能够得到业务数据的准确信息，提高了数据分析的结果的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的数据处理方法的流程示意图；

图2为本申请实施例提供的数据处理装置的功能模块示意图；

图3为本申请实施例提供的电子设备的结构示意图。

具体实施方式

本申请实施例的目的是提供一种数据处理方法及装置，提高了数据分析效率和数据分析的结果的准确率。

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如前，对于数据集成的数据分析的方式是通过人为盘点的方式，具体是与数据所有部门会议拉通，对数据的元数据进行分析以及建立台账，供后续数据集成的数仓建设提供输入，其中，元数据为描述数据的数据，主要是描述数据属性的信息，用来支持如指示数据的存储位置、历史数据、资源查找、文件记录等功能。采用人工盘点的方式，不仅数据分析的效率低下，且其仅通过对数据的元数据进行分析，无法保证数据的准确信息，导致数据分析的结果的准确率较为低下。

为了解决以上技术问题，本申请实施例提供了一种数据处理方法及装置，下面结合附图对本申请实施例提供的一种数据处理方法及装置进行详细说明。

如图1所示，本申请实施例提供一种数据处理方法，该方法的执行主体可以为服务器，其中，该服务器可以是独立的服务器，也可以是由多个服务器组成的服务器集群。该数据处理方法具体可以包括以下步骤S101-S109：

在步骤S101中，接收对数据集成中业务数据的分析指令。

具体来讲，数据集成是把不同来源、格式和特点性质的数据在逻辑上或物理上有机的集中，从而为企业提供全面的数据共享。业务数据是由多种数据源提供的，本申请实施例提供一种业务数据的元数据与数据内容的分析引擎，实现业务数据自动集成以及处理分析的平台，用户可以通过该平台触发对数据集成中业务数据进行分析的分析指令。

在步骤S103中，响应于所述分析指令，获取所述业务数据的元数据和所述业务数据的数据内容。

所述元数据指示所述业务数据的数据属性。

具体来讲，业务数据的数据属性包括数据源表结构信息、存储位置、历史数据、资源查找、文件记录等，数据源表结构信息包括字段名、类型、长度、描述信息等信息。

在一种可能的实现方式中，获取所述业务数据的元数据和所述业务数据的数据内容包括：通过数据源适配器获取所述业务数据的元数据和所述业务数据的数据内容，所述数据源适配器与至少一种业务数据源之间进行连接，所述数据源适配器用于提供访问所述至少一种业务数据源的接口，所述业务数据源用于提供所述业务数据。

具体来讲，通过统一的数据源适配器与各种类型的业务数据源连接，从而提供访问各种类型的业务数据源的接口，无需了解底层的业务数据源的类型，在遇到不支持的业务数据源类型时，可以基于该数据源适配器快速实现对该业务源类型的业务数据的读取，从而提高获取业务数据的效率。其中，数据源适配器是一种抽象的业务组件，不同类型的业务数据源如mysql、oracle等数据库存在共性，比如jdbc链接、库、表、字段等。所以通过抽象一个统一的数据源适配器可以简化所有不同类型的业务数据源相关的业务操作，将各种类型的业务数据源的共性的功能提炼为统一的代码操作，如果有例外的情况，则在每个业务数据源实现代码中单独提供，但是不影响整体的流程流转，例如业务数据源的类型可以为Mysql、oracle、sqlserver、DB2、postgresql、达梦、gbase、hive、greenplum等数据源类型。

在步骤S105中，将所述元数据输入到第一模型中进行第一处理，得到第一处理结果。

所述第一处理用于计算所述元数据与参考元数据之间的相似度。

具体来讲，第一模型可以为DPCNN模型等，是一种基于word-level级别的深层金字塔深度学习卷积网络，该模型通过不断加深网络，用以抽取长距离的文本依赖关系。本申请实施例中通过对输入的数元数据等进行卷积操作后生成相应的词向量word embedding，进而对词向量word embedding进行等长卷积，使元数据中的每个词向量获得更为准确的语义，而后通过池化操作对元数据的每个词向量以及参考元数据之间进行相似度计算进而完成最终的输出，相似度可以作为元数据的打分分数。其中，参考元数据指的是已经沉淀的数仓建设字段，其指的是具有参考价值的元数据。如此，通过第一模型对元数据进行处理从而获得每个词向量的语义，从而提高探测出的元数据的准确率。

在步骤S107中，将所述数据内容输入到第二模型中进行第二处理，得到第二处理结果。

所述第二处理用于计算所述数据内容与参考数据内容之间的相似度。

具体来讲，第二模型可以为DPCNN模型等，是一种基于word-level级别的深层金字塔深度学习卷积网络，该模型通过不断加深网络，用以抽取长距离的文本依赖关系。本申请实施例中通过对输入的数数据内容等进行卷积操作后生成相应的词向量word embedding，进而对词向量word embedding进行等长卷积，使每个词向量获得更为准确的语义，而后通过池化操作对数据内容的每个词向量以及参考数据内容之间进行相似度计算进而完成最终的输出，相似度可以作为数据内容的打分分数。其中，参考数据内容指的是已经沉淀的数仓建设字段，其指的是具有参考价值的数据内容。

在一种可能的实现方式中，将所述数据内容输入到第二模型中进行第二处理，得到第二处理结果包括：根据所述元数据的类型对所述数据内容进行划分，其中，各种类型的元数据对应的数据内容的数据量相同；将各种类型的元数据对应的数据内容分别输入到各自对应的第二模型中进行第二处理，得到与各种类型的元数据对应的数据内容的第二处理结果。

具体来讲，对于业务数据的数据内容而言，其数据量通常会很庞大，所以对数据内容进行拆分，从而提高对数据内容的处理效率。其中，对数据内容进行划分，可以是按照元数据的类型将数据内容划分为与各种元数据的类型对应的数量，其中，对于每种类型的元数据而言，每种类型的元数据对应的数据内容的数据量是相同的，每种类型的元数据对应一个第二模型，如此，每种类型的元数据对应的数据量相同，使得每个第二模型对数据进行处理时，每个第二模型处理的数据量都是相同的，从而保证数据的均衡性以及每个第二模型处理的数据的数据量保持一致，从而提高每个第二模型处理数据的效率。

在步骤S109中，根据所述第一处理结果和所述第二处理结果确定所述业务数据的第三处理结果。

具体来讲，第一处理结果和第二处理结果分别表示的是业务数据的元数据与参考元数据之间的相似度，和业务数据的数据内容与参考数据内容之间的相似度，综合第一处理结果和第二处理结果得到业务数据的整体的评估结果，提高业务数据的分析结果的准确率，得到业务数据的准确信息。

在一种可能的实现方式中，根据所述第一处理结果和所述第二处理结果确定所述业务数据的第三处理结果包括：获取为所述第一处理结果分配的第一权重和所述第二处理结果分配的第二权重，所述第一权重和所述第二权重不同；分别为所述第一处理结果和所述第二处理结果打分，得到与所述第一处理结果对应的第一分值和所述第二处理结果对应的第二分值；将所述第一权重和所述第一分值相乘，得到第一乘积，所述第二权重与所述第二分值相乘，得到第二乘积；将所述第一乘积和所述第二乘积相加，得到所述第三处理结果。

具体来讲，第一权重和第二权重是根据第一处理结果和第二处理结果的重要程度确定的，如果业务数据的元数据重要程度高于业务数据的数据内容的重要程度，则将第一权重配置的大于第二权重。其中，权重具体配置为多少，可以根据实际情况确定，本申请实施例在此并不作限定，在为第一处理结果和第二处理结果打分时，可以按照计算出的相似度进行打分，相似度越高，则打分的分值也越高。

本申请实施例公开的技术方案，通过接收对数据集成中业务数据的分析指令；响应于所述分析指令，能够自动化的对数据集成中的业务数据进行分析处理，具体是获取所述业务数据的元数据和所述业务数据的数据内容，所述元数据指示所述业务数据的数据属性；将所述元数据输入到第一模型中进行第一处理，得到第一处理结果，所述第一处理用于计算所述元数据与参考元数据之间的相似度；将所述数据内容输入到第二模型中进行第二处理，得到第二处理结果，所述第二处理用于计算所述数据内容与参考数据内容之间的相似度；根据所述第一处理结果和所述第二处理结果确定所述业务数据的第三处理结果。如此，在接收到分析指令后，以自动化的方式获取元数据和数据内容，并结合第一模型和第二模型分别对元数据和数据内容进行处理，提高了数据处理效率，且通过对业务数据的元数据和数据内容均进行分析，能够得到业务数据的准确信息，提高了数据分析的结果的准确率。

在一种可能的实现方式中，在所述根据所述第一处理结果和所述第二处理结果确定所述业务数据的第三处理结果之后，所述方法还包括：生成所述第三处理结果与所述业务数据所属数据源的映射关系；在所述数据源被配置的情况下，根据所述映射关系向数据仓库推荐所述数据源中与所述第三处理结果对应的业务数据。

具体来讲，在生成第三处理结果之后，将第三处理结果与业务数据所属数据源的映射关系建立起来，在数据源被工作人员配置时，按照该映射关系使得数据仓库中存储第三处理结果对应的业务数据。如此，在数据源被配置时，可以按照该映射关系进行相应的业务数据的推荐，从而指导数仓建设。

对应上述实施例提供的数据处理方法，基于相同的技术构思，本申请实施例还提供了数据处理装置，图2为本申请实施例提供的数据处理装置的模块组成示意图，该数据处理装置用于执行上述实施例描述的数据处理方法，如图2所示，该数据处理装置200包括：接收模块201，用于接收对数据集成中业务数据的分析指令；获取模块202，用于响应于所述分析指令，获取所述业务数据的元数据和所述业务数据的数据内容，所述元数据指示所述业务数据的数据属性；处理模块203，用于将所述元数据输入到第一模型中进行第一处理，得到第一处理结果，所述第一处理用于计算所述元数据与参考元数据之间的相似度；所述处理模块203，还用于将所述数据内容输入到第二模型中进行第二处理，得到第二处理结果，所述第二处理用于计算所述数据内容与参考数据内容之间的相似度；确定模块204，用于根据所述第一处理结果和所述第二处理结果确定所述业务数据的第三处理结果。

通过本申请实施例公开的技术方案，通过接收对数据集成中业务数据的分析指令；响应于所述分析指令，能够自动化的对数据集成中的业务数据进行分析处理，具体是获取所述业务数据的元数据和所述业务数据的数据内容，所述元数据指示所述业务数据的数据属性；将所述元数据输入到第一模型中进行第一处理，得到第一处理结果，所述第一处理用于计算所述元数据与参考元数据之间的相似度；将所述数据内容输入到第二模型中进行第二处理，得到第二处理结果，所述第二处理用于计算所述数据内容与参考数据内容之间的相似度；根据所述第一处理结果和所述第二处理结果确定所述业务数据的第三处理结果。如此，在接收到分析指令后，以自动化的方式获取元数据和数据内容，并结合第一模型和第二模型分别对元数据和数据内容进行处理，提高了数据处理效率，且通过对业务数据的元数据和数据内容均进行分析，能够得到业务数据的准确信息，提高了数据分析的结果的准确率。

在一种可能的实现方式中，还包括：生成模块，用于生成所述第三处理结果与所述业务数据所属数据源的映射关系；推荐模块，用于在所述数据源被配置的情况下，根据所述映射关系向数据仓库推荐所述数据源中与所述第三处理结果对应的业务数据。

在一种可能的实现方式中，获取模块202，还用于通过数据源适配器获取所述业务数据的元数据和所述业务数据的数据内容，所述数据源适配器与至少一种业务数据源之间进行连接，所述数据源适配器用于提供访问所述至少一种业务数据源的接口，所述业务数据源用于提供所述业务数据。

在一种可能的实现方式中，处理模块203，还用于根据所述元数据的类型对所述数据内容进行划分，其中，各种类型的元数据对应的数据内容的数据量相同；将各种类型的元数据对应的数据内容分别输入到各自对应的第二模型中进行第二处理，得到与各种类型的元数据对应的数据内容的第二处理结果。

在一种可能的实现方式中，确定模块204，还用于获取为所述第一处理结果分配的第一权重和所述第二处理结果分配的第二权重，所述第一权重和所述第二权重不同；分别为所述第一处理结果和所述第二处理结果打分，得到与所述第一处理结果对应的第一分值和所述第二处理结果对应的第二分值；将所述第一权重和所述第一分值相乘，得到第一乘积，所述第二权重与所述第二分值相乘，得到第二乘积；将所述第一乘积和所述第二乘积相加，得到所述第三处理结果。

本申请实施例提供的数据处理装置能够实现上述数据处理方法对应的实施例中的各个过程，为避免重复，这里不再赘述。

需要说明的是，本申请实施例提供的数据处理装置与本申请实施例提供的数据处理方法基于同一发明构思，且具有相同的技术效果，因此该实施例的具体实施可以参见前述数据处理方法的实施，重复之处不再赘述。

对应上述实施例提供的数据处理方法，基于相同的技术构思，本申请实施例还提供了一种电子设备，该电子设备用于执行上述的数据处理方法，图3为实现本发明各个实施例的一种电子设备的结构示意图，如图3所示。电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器301和存储器302，存储器302中可以存储有一个或一个以上存储应用程序或数据。其中，存储器302可以是短暂存储或持久存储。存储在存储器302的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地，处理器301可以设置为与存储器302通信，在电子设备上执行存储器302中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源303，一个或一个以上有线或无线网络接口304，一个或一个以上输入输出接口305，一个或一个以上键盘306。

在本实施例中，电子设备包括有处理器、通信接口、存储器和通信总线；其中，处理器、通信接口以及存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现上述方法实施例中描述的步骤。

需要说明的是，本申请实施例提供的电子设备与本申请实施例提供的数据处理方法基于同一发明构思，且具有相同的技术效果，因此该实施例的具体实施可以参见前述数据处理方法的实施，重复之处不再赘述。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现如上述方法实施例中描述的步骤。

需要说明的是，本申请实施例提供的计算机可读存储介质与本申请实施例提供的数据处理方法基于同一发明构思，且具有相同的技术效果，因此该实施例的具体实施可以参见前述数据处理方法的实施，重复之处不再赘述。

具体实施例中，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述方法实施例中描述的步骤。

需要说明的是，本申请实施例提供的芯片与本申请实施例提供的数据处理方法基于同一发明构思，且具有相同的技术效果，因此该实施例的具体实施可以参见前述数据处理方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，电子设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、装置或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：姜楠;刘译璟;赵群;
专利申请人：北京百分点科技集团股份有限公司;