掌桥专利:专业的专利平台
掌桥专利
首页

数据表管理方法及装置

文献发布时间:2023-06-19 11:32:36


数据表管理方法及装置

技术领域

本发明涉及计算机技术领域,尤其涉及数据表管理方法及装置。

背景技术

在大型软件公司中,不同团队往往会在各自的数据库中存储信息。但是,由于某些信息具有通用性,例如用户姓名、手机号码等,在各自的数据库中存储会造成冗余从而浪费资源。

因此,亟需一种可以克服上述问题的数据表管理方案。

发明内容

本发明实施例提供一种数据表管理方法,用以管理数据库中的数据,避免造成冗余,浪费资源,该方法包括:

获得待建数据表的主题域信息,表名称信息,字段信息和数据源信息;

在表资源池中查找所述待建数据表的主题域信息;

若表资源池中不存在所述待建数据表的主题域信息,则允许在表资源池中新增所述待建数据表;

若表资源池中存在所述待建数据表的主题域信息,则提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息;

根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息;

根据所述相似度信息,对数据表进行管理。

本发明实施例提供一种数据表管理装置,用以管理数据库中的数据,避免造成冗余,浪费资源,该装置包括:

信息获得模块,用于获得待建数据表的主题域信息,表名称信息,字段信息和数据源信息;

信息查找模块,用于在表资源池中查找所述待建数据表的主题域信息;

第一信息判断模块,用于若表资源池中不存在所述待建数据表的主题域信息,则允许在表资源池中新增所述待建数据表;

第二信息判断模块,用于若表资源池中存在所述待建数据表的主题域信息,则提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息;

相似度确定模块,用于根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息;

数据表管理模块,用于根据所述相似度信息,对数据表进行管理。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述数据表管理方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述数据表管理方法的计算机程序。

本发明实施例通过获得待建数据表的主题域信息,表名称信息,字段信息和数据源信息;在表资源池中查找所述待建数据表的主题域信息;若表资源池中不存在所述待建数据表的主题域信息,则允许在表资源池中新增所述待建数据表;若表资源池中存在所述待建数据表的主题域信息,则提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息;根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息;根据所述相似度信息,对数据表进行管理。本发明实施例首先在表资源池中查找待建数据表的主题域信息,若表资源池中不存在待建数据表的主题域信息,则允许在表资源池中新增待建数据表,从而实现了根据主题域对数据表进行分类,避免主题域业务含义不同但是表名称相似被判定为重复字段,有效提升相似度准确性。对于表资源池中存在待建数据表的主题域信息则需要进一步根据表名称信息,字段信息和数据源信息进行判断,提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息,根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息,进而根据相似度信息,对数据表进行管理,从而有效建立待建数据表与历史数据表的关系管理数据库中的数据,避免造成冗余,浪费资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明实施例中数据表管理方法示意图;

图2~图3为本发明具体实施例中数据表管理方法示意图;

图4为本发明实施例中数据表管理装置结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

为了管理数据库中的数据,避免造成冗余,浪费资源,本发明实施例提供一种数据表管理方法,如图1所示,该方法可以包括:

步骤101、获得待建数据表的主题域信息,表名称信息,字段信息和数据源信息;

步骤102、在表资源池中查找所述待建数据表的主题域信息;

步骤103、若表资源池中不存在所述待建数据表的主题域信息,则允许在表资源池中新增所述待建数据表;

步骤104、若表资源池中存在所述待建数据表的主题域信息,则提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息;

步骤105、根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息;

步骤106、根据所述相似度信息,对数据表进行管理。

由图1所示可以得知,本发明实施例通过获得待建数据表的主题域信息,表名称信息,字段信息和数据源信息;在表资源池中查找所述待建数据表的主题域信息;若表资源池中不存在所述待建数据表的主题域信息,则允许在表资源池中新增所述待建数据表;若表资源池中存在所述待建数据表的主题域信息,则提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息;根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息;根据所述相似度信息,对数据表进行管理。本发明实施例首先在表资源池中查找待建数据表的主题域信息,若表资源池中不存在待建数据表的主题域信息,则允许在表资源池中新增待建数据表,从而实现了根据主题域对数据表进行分类,避免主题域业务含义不同但是表名称相似被判定为重复字段,有效提升相似度准确性。对于表资源池中存在待建数据表的主题域信息则需要进一步根据表名称信息,字段信息和数据源信息进行判断,提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息,根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息,进而根据相似度信息,对数据表进行管理,从而有效建立待建数据表与历史数据表的关系管理数据库中的数据,避免造成冗余,浪费资源。

需要说明的是,本发明公开的数据表管理方法和装置可用于金融领域,也可用于除金融领域之外的任意领域,本发明公开的数据表管理方法和装置的应用领域不做限定。

实施例中,获得待建数据表的主题域信息,表名称信息,字段信息和数据源信息,在表资源池中查找所述待建数据表的主题域信息,若表资源池中不存在所述待建数据表的主题域信息,则允许在表资源池中新增所述待建数据表,若表资源池中存在所述待建数据表的主题域信息,则提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息。

具体实施时,在表结构中新增主题域信息和数据源信息,在新建数据表时,除基本信息(表名称信息,字段信息等)外,还需要填写主题域信息和数据源信息。其中,主题域信息表示数据表存储的数据的业务方向,用于对表资源池进行划分。数据源信息为表资源池中已存在的表,例如,若A表的数据源为B表,则代表A表中的字段来自于B表。在新建数据表时,填写对应信息后先判定待建数据表所属主题域,也即,在表资源池中查找待建数据表的主题域信息,若表资源池中不存在待建数据表的主题域信息,则表示主题域不相同,此时允许在表资源池中新增待建数据表。若表资源池中存在待建数据表的主题域信息,则表示主题域相同,提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息。

实施例中,根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息。

在本实施例中,根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息,包括:

分别对待建数据表的表名称信息和历史数据表的表名称信息进行拆词处理,得到待建数据表对应的第一拆词结果和历史数据表对应的第二拆词结果,计算所述第一拆词结果和第二拆词结果的Jaccard系数,得到第一相似度信息;

分别对待建数据表的字段信息和历史数据表的字段信息进行拆词处理,得到待建数据表对应的第三拆词结果和历史数据表对应的第四拆词结果,计算所述第三拆词结果和第四拆词结果的Jaccard系数,得到第二相似度信息;

分别对待建数据表的数据源信息和历史数据表的数据源信息进行拆词处理,得到待建数据表对应的第五拆词结果和历史数据表对应的第六拆词结果,计算所述第五拆词结果和第六拆词结果的Jaccard系数,得到第三相似度信息;

对历史数据表的表名称信息,字段信息和数据源信息进行准确度评估,根据准确度评估的结果确定第一相似度信息对应的第一权重,第二相似度信息对应的第二权重和第三相似度信息对应的第三权重;

根据所述第一相似度信息和对应的第一权重,第二相似度信息和对应的第二权重,以及第三相似度信息和对应的第三权重,确定待建数据表与历史数据表的相似度信息。

在本实施例中,对历史数据表的表名称信息,字段信息和数据源信息进行准确度评估,根据准确度评估的结果确定第一相似度信息对应的第一权重,第二相似度信息对应的第二权重和第三相似度信息对应的第三权重,包括:

对历史数据表的表名称信息,字段信息和数据源信息进行准确度评估,得到表名称信息对应的第一评估数组,字段信息对应的第二评估数组和数据源信息对应的第三评估数组;

分别去掉第一评估数组,第二评估数组和第三评估数组中每个数组的最高值和最低值;

分别对去掉最高值和最低值的每个数组进行求和,得到第一求和结果,第二求和结果和第三求和结果;

对所述第一求和结果,第二求和结果和第三求和结果进行归一化处理,得到第一相似度信息对应的第一权重,第二相似度信息对应的第二权重和第三相似度信息对应的第三权重。

具体实施时,以表名称信息为例,对待建数据表的表名称信息进行拆词,例如“重要客户信息表”可以拆词为:重要、客户、信息;“客户号码”可以拆词为:客户、号码,得到待建数据表对应的第一拆词结果,将此设为集合A。对历史数据表的表名称信息进行拆词得到历史数据表对应的第二拆词结果,第二拆词结果也可以直接从数据库中读取,将此设为集合B。

按如下公式计算第一拆词结果集合A和第二拆词结果集合B的Jaccard系数J(A,B),得到第一相似度信息S

具体实施时,字段信息对应的第二相似度信息S

具体实施时,使用定量统计法计算权重第一相似度信息对应的第一权重Q

具体实施时,在得到第一相似度信息S

实施例中,根据所述相似度信息,对数据表进行管理。

在本实施例中,根据所述相似度信息,对数据表进行管理,包括:将所述相似度信息与预先设定的相似度阈值进行比较;若所述相似度信息大于预先设定的相似度阈值,则不允许在表资源池中新增所述待建数据表;若所述相似度信息小于或等于预先设定的相似度阈值,则允许在表资源池中新增所述待建数据表。

具体实施时,若相似度信息大于预先设定的相似度阈值,则判定待建数据表与历史数据表为重复表,不允许在表资源池中新增所述待建数据表。若相似度信息小于或等于预先设定的相似度阈值,也即若待建数据表与该主题域下所有的历史数据表相似度均未超过阀值,则判定待建数据表为新表,允许在表资源池中新增所述待建数据表。

本发明实施例可以对表结构进行相似度计算,引入主题域的概念,可以根据主题域对数据表进行划分,同时根据主题域、表名、数据源进行相似度检查,若相似度达到一定阀值则判定为重复表。这样可以在新建数据表时对其进行检查,避免重复建设,从而解决了相似度算法中业务属性不同的同名字段会被统计相似度的问题,在表结构中新设主题域字段,对数据表按照业务方向进行划分,提升了相似度算法的准确度。本发明实施例根据主题域对表进行分类,避免业务含义不同但名称相似的字段被判定为重复字段,提升相似度准确性。并且,通过表关联数据源建立表与表的关系。可以将名称相似但来源一致的字段判定为相似字段,提升相似度准确性。

下面给出一个具体实施例,说明本发明实施例中数据表管理方法的具体应用。在本具体实施例中,如图2-图3所示进行数据表管理,“对公”主题域下有5张数据表,首先组织相关专家对这五张表进行评审,结果如表1所示:

表1

根据上述方法,得:

C

C

C

进行归一化处理,得Q

此时新增表“重要客户信息表”,则分别对表名,字段名进行拆词,并读取该表数据源信息,结果如表2:

表2

此时,若该主题域下已存在表“对公客户信息表”,则对该表名,字段名进行拆词,结果如表3:

表3

由表2与表3的数据可得,

进而,“重要客户信息表”与“对公客户信息表”的相似度S为:

基于同一发明构思,本发明实施例还提供了一种数据表管理装置,如下面的实施例所述。由于这些解决问题的原理与数据表管理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

图4为本发明实施例中数据表管理装置的结构图,如图4所示,该装置包括:

信息获得模块401,用于获得待建数据表的主题域信息,表名称信息,字段信息和数据源信息;

信息查找模块402,用于在表资源池中查找所述待建数据表的主题域信息;

第一信息判断模块403,用于若表资源池中不存在所述待建数据表的主题域信息,则允许在表资源池中新增所述待建数据表;

第二信息判断模块404,用于若表资源池中存在所述待建数据表的主题域信息,则提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息;

相似度确定模块405,用于根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息;

数据表管理模块406,用于根据所述相似度信息,对数据表进行管理。

一个实施例中,所述相似度确定模块405进一步用于:

分别对待建数据表的表名称信息和历史数据表的表名称信息进行拆词处理,得到待建数据表对应的第一拆词结果和历史数据表对应的第二拆词结果,计算所述第一拆词结果和第二拆词结果的Jaccard系数,得到第一相似度信息;

分别对待建数据表的字段信息和历史数据表的字段信息进行拆词处理,得到待建数据表对应的第三拆词结果和历史数据表对应的第四拆词结果,计算所述第三拆词结果和第四拆词结果的Jaccard系数,得到第二相似度信息;

分别对待建数据表的数据源信息和历史数据表的数据源信息进行拆词处理,得到待建数据表对应的第五拆词结果和历史数据表对应的第六拆词结果,计算所述第五拆词结果和第六拆词结果的Jaccard系数,得到第三相似度信息;

对历史数据表的表名称信息,字段信息和数据源信息进行准确度评估,根据准确度评估的结果确定第一相似度信息对应的第一权重,第二相似度信息对应的第二权重和第三相似度信息对应的第三权重;

根据所述第一相似度信息和对应的第一权重,第二相似度信息和对应的第二权重,以及第三相似度信息和对应的第三权重,确定待建数据表与历史数据表的相似度信息。

一个实施例中,所述相似度确定模块405进一步用于:

对历史数据表的表名称信息,字段信息和数据源信息进行准确度评估,得到表名称信息对应的第一评估数组,字段信息对应的第二评估数组和数据源信息对应的第三评估数组;

分别去掉第一评估数组,第二评估数组和第三评估数组中每个数组的最高值和最低值;

分别对去掉最高值和最低值的每个数组进行求和,得到第一求和结果,第二求和结果和第三求和结果;

对所述第一求和结果,第二求和结果和第三求和结果进行归一化处理,得到第一相似度信息对应的第一权重,第二相似度信息对应的第二权重和第三相似度信息对应的第三权重。

一个实施例中,所述数据表管理模块406进一步用于:

将所述相似度信息与预先设定的相似度阈值进行比较;

若所述相似度信息大于预先设定的相似度阈值,则不允许在表资源池中新增所述待建数据表;

若所述相似度信息小于或等于预先设定的相似度阈值,则允许在表资源池中新增所述待建数据表。

综上所述,本发明实施例通过获得待建数据表的主题域信息,表名称信息,字段信息和数据源信息;在表资源池中查找所述待建数据表的主题域信息;若表资源池中不存在所述待建数据表的主题域信息,则允许在表资源池中新增所述待建数据表;若表资源池中存在所述待建数据表的主题域信息,则提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息;根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息;根据所述相似度信息,对数据表进行管理。本发明实施例首先在表资源池中查找待建数据表的主题域信息,若表资源池中不存在待建数据表的主题域信息,则允许在表资源池中新增待建数据表,从而实现了根据主题域对数据表进行分类,避免主题域业务含义不同但是表名称相似被判定为重复字段,有效提升相似度准确性。对于表资源池中存在待建数据表的主题域信息则需要进一步根据表名称信息,字段信息和数据源信息进行判断,提取表资源池中该主题域信息对应的历史数据表的表名称信息,字段信息和数据源信息,根据待建数据表的表名称信息,字段信息和数据源信息,以及历史数据表的表名称信息,字段信息和数据源信息,确定待建数据表与历史数据表的相似度信息,进而根据相似度信息,对数据表进行管理,从而有效建立待建数据表与历史数据表的关系管理数据库中的数据,避免造成冗余,浪费资源。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 数据表管理方法及装置
  • 固态硬盘数据表的管理方法、装置、存储介质及电子设备
技术分类

06120112965933