掌桥专利:专业的专利平台
掌桥专利
首页

一种基于主题库的批量数据管理系统及其应用

文献发布时间:2024-04-18 20:02:40


一种基于主题库的批量数据管理系统及其应用

技术领域

本发明涉及电数字数据处理的技术领域,特别涉及一种基于主题库的批量数据管理系统及其应用。

背景技术

大数据(big data),是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。随着物联网、人工智能、5G等技术的不断突破与发展,全球的数据源和数据量越来越大,所产生的数据需求不容忽视,对于批量数据的管理也尤为重要。

批量数据是指大量的、存在一定逻辑关系的数据,这种数据在存储或处理过程中,如果按基本类型来处理,无法考虑其逻辑关系,在程序设计中就很难处理,且处理量、算量较大,对于内存的需求亦较大,而当考虑到批量数据的逻辑关系时,可以从一定程度上解决这些问题。

在数据项目中,可以将数据分为不同的逻辑层次来组织和管理,主题库(datawarehouse)则可以将多个来源、同一业务主题的数据进行处理,通过包括但不限于格式统一、清洗、合并等处理得到结构化的数据库,其服务于查询分析业务,可以提供多种领域的数据查询。主题库按照业务含义组织和管理,其使得数据的划分更加清晰,提供数据使用,提高管理效率,便于数据的组织、管理和共享。

然而,现有技术中,对于批量数据的处理,目前解决方案不适于大量项目的数据同步与更新的需求,未来潜在大量的数据/服务订阅需求也需要对目前方案进行优化;此外,项目与其数据质量统计口径不一致,导致失偏,对项目及基础服务的提供也是大问题。

发明内容

本发明解决了现有技术中存在的问题,提供了一种基于主题库的批量数据管理系统及其应用。

本发明所采用的技术方案是,一种基于主题库的批量数据管理系统,所述系统包括:

一配置单元,用于配置规则、白名单;

一输入端,用于用户输入任务需求或进行数据订阅;

一个或多个主题库,用于存储、更新一个或多个数据集的数据;

一辅助单元,用于基于配置对任务需求或数据订阅进行规则化处理、并对待分发数据进行辅助支撑;

一数据质量监管单元,用于对任务需求或数据订阅与分发的数据进行匹配度监管;

一输出端,用于输出待分发数据至用户。

优选地,所述系统的批量数据订阅推送包括以下步骤:

步骤1.1:对每个主题库对应的一个或多个数据集进行数据预处理;配置规则和白名单;

步骤1.2:用户自输入端输入任务需求或进行数据订阅;

步骤1.3:辅助单元对任务需求或数据订阅需求进行规则化处理,与一个或多个主题库进行数据的调取,并对待分发数据进行处理;

步骤1.4:输出端将待分发数据输出至用户;同步进行数据质量监管,更新辅助单元。

优选地,步骤1.1中,数据预处理为将主题库中的一个或多个数据集进行项目、字段和订阅关键词的拆分;当存在多个数据集时,遍历所有数据集,建立数据集间的项目、字段或订阅关键词间的关联,计算关联度,以每个数据集为节点,基于数据集间的关联度建立有向图。

优选地,对关联的权重大于阈值的节点对应的数据集进行链接。

优选地,所述订阅关键词包括订阅者信息、订阅时间段、订阅权限。

优选地,所述主题库的更新包括以下步骤:

步骤2.1:若任一数据集触发更新需求则进行下一步,否则继续监听;

步骤2.2:直接获取待更新内容或基于数据集识别信息提取历史数据集获取更新内容;

步骤2.3:提取更新内容中包括的项目、字段或订阅关键词;

步骤2.4:若更新内容合规,则更新数据集并进行下一步,否则拒绝更新;

步骤2.5:获取更新内容对应的项目、字段或订阅关键词对应的其他数据集,更新当前数据集与其他数据集的关联。

优选地,步骤1.3包括以下步骤:

步骤1.3.1:辅助单元对所述任务需求或数据订阅需求进行规则化处理,提取对应的项目、字段或订阅关键词;

步骤1.3.2:将提取的项目与一个或多个主题库进行匹配,获得待提取数据的主题库集;

步骤1.3.3:基于项目、字段或订阅关键词进行主题库集中每个主题库数据的调取,并调取关联度大于预设值的数据对应的记录作为待分发数据;

步骤1.3.4:对待分发数据进行去重,完成处理。

优选地,所述数据质量监管单元对输入端输入的数据和输出端输出的数据提取特征向量并计算相似度,记作A;所述数据质量监管单元获取用户反馈分值,折算至0到1间的数值,记作B;基于A和B的差值调节辅助单元和/或主题库。

优选地,建立基于所述数据质量监管单元的用户引导单元,用于基于数据质量监管单元输出的数据质量引导用户进行任务需求输入或数据订阅的优化。

一种所述的基于主题库的批量数据管理系统的应用,应用于多源-多目标场景下的批量数据传输。

本发明涉及一种基于主题库的批量数据管理系统及其应用,以配置单元配置规则、白名单,用户以输入端输入任务需求或进行数据订阅,以一个或多个主题库存储、更新一个或多个数据集的数据,基于配置以辅助单元对任务需求或数据订阅进行规则化处理、并对待分发数据进行辅助支撑,通过输出端输出待分发数据至用户,过程中以数据质量监管单元对任务需求或数据订阅与分发的数据进行匹配度监管;应用于多源-多目标场景下的批量数据传输。

本发明的有益效果在于,针对每个分发目标的源表实现水平和垂直订阅、增量递送以及高效分发,显著提升数据分发效率、降低网络IO的需求。

附图说明

图1为本发明的系统结构框图;

图2为本发明的批量数据订阅推送方法示意图;

图3为本发明的主题库的更新方法示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

如图1所示,本实施例涉及一种基于主题库的批量数据管理系统,所述系统包括:

一配置单元,用于配置规则、白名单;

一输入端,用于用户输入任务需求或进行数据订阅;

一个或多个主题库,用于存储、更新一个或多个数据集的数据;

一辅助单元,用于基于配置对任务需求或数据订阅进行规则化处理、并对待分发数据进行辅助支撑;

一数据质量监管单元,用于对任务需求或数据订阅与分发的数据进行匹配度监管;

一输出端,用于输出待分发数据至用户。

本实施例中,以配置单元配置规则、白名单等,考虑到现有的任务中,事实上超过80%以上存在相似性,而每个项目或者订阅一般都可以简化为可对多个数据集内不同行业和列订阅,基于白名单与基于规则基本可以覆盖这些任务。

本实施例中,对于白名单用户,可以限定主题库的每行数据要分发至哪些项目或订阅者、哪些字段数据分发到哪些项目、该行数据是否满足项目或订阅者的需求等,进行白名单层面的筛选。

本实施例中,对于规则,在实际应用中可以以主题库基于项目和订阅者实现不同的规则匹配,建立主题库与每个项目及订阅者的准确关联。

实施例2

在实施例1的基础上,所述系统的批量数据订阅推送包括以下步骤:

步骤1.1:对每个主题库对应的一个或多个数据集进行数据预处理;配置规则和白名单;

步骤1.2:用户自输入端输入任务需求或进行数据订阅;

步骤1.3:辅助单元对任务需求或数据订阅需求进行规则化处理,与一个或多个主题库进行数据的调取,并对待分发数据进行处理;

步骤1.4:输出端将待分发数据输出至用户;同步进行数据质量监管,更新辅助单元。

本实施例中,实现批量、快速、自动地完成分发数据的生成及质量评估。

本实施例中,首先对主题库对应的数据集进行处理,使得数据集之间构建关联,事实上,在同一个主题库下,即便是分列的数据集也将存在一定程度的关联,而对于不同的主题库可以直接由用户输入的任务需求或数据订阅信息进行筛选,即用户输入需求后,选中一个或多个主题库,同时在每个主题库中选中一个或多个数据集的数据进行返回。

本实施例中,由于需求的多样性及返回数据的冗余可能性,故以辅助单元对用户的任务需求或数据订阅需求进行规则化处理,使得可以更为便利地从主题库的数据集中筛选出有效数据,同时对待分发数据进行处理,使得用户收到优化后的数据。

本实施例中,通过数据质量监管获取数据的输出反馈,基于输出反馈更新辅助单元或训练辅助单元的规则化机制和处理机制,在不断学习的过程中使得辅助单元在后续的工作中输出的数据更为符合用户需求。

实施例3

在实施例2的基础上,步骤1.1中,数据预处理为将主题库中的一个或多个数据集进行项目、字段和订阅关键词的拆分;当存在多个数据集时,遍历所有数据集,建立数据集间的项目、字段或订阅关键词间的关联,计算关联度,以每个数据集为节点,基于数据集间的关联度建立有向图。

对关联的权重大于阈值的节点对应的数据集进行链接。

所述订阅关键词包括订阅者信息、订阅时间段、订阅权限。

本实施例中,对于数据的预处理的方式是比较多的,此处为将主题库中的一个或多个数据集进行项目、字段和订阅关键词的拆分;

在完成了数据集的处理后,每个数据集即产生了一个包括若干维度表格,而其中的每个数据就存在若干特征,可以视为以若干特征构成的数据向量,在同一主题库中,这些数据往往都存在一定的关联,也即形成了单个主题库中的数据网。

本实施例中,当一个主题库中存在多个数据集时,遍历所有数据集即可建立数据集间的项目、字段或订阅关键词间的关联,计算关联度,这些关联可以基于规则对应,亦可以以人工实现,而关联度也包括了以规则自动计算及人工设置的两种方式;以每个数据集为节点,基于数据集间的关联度即可以建立有向图。

本实施例中,为了避免数据冗余度过大,对关联的权重大于阈值的节点对应的数据集才进行链接,即可以在输出过程中关联输出。

本实施例中,订阅包括水平订阅和垂直订阅,此处的水平订阅是指涉及多个领域的订阅,包含了不同领域的内容,可以通过字段和订阅关键词进行识别,而垂直订阅则专注于某个特定领域,可以通过项目和字段信息进行识别订阅。

实施例4

在实施例3的基础上,所述主题库的更新包括以下步骤:

步骤2.1:若任一数据集触发更新需求则进行下一步,否则继续监听;

步骤2.2:直接获取待更新内容或基于数据集识别信息提取历史数据集获取更新内容;

步骤2.3:提取更新内容中包括的项目、字段或订阅关键词;

步骤2.4:若更新内容合规,则更新数据集并进行下一步,否则拒绝更新;

步骤2.5:获取更新内容对应的项目、字段或订阅关键词对应的其他数据集,更新当前数据集与其他数据集的关联。

本实施例中,在主题库更新的过程中,监听其内每个数据集的更新请求,当接收到更新请求时,直接获取待更新内容或做差获得待更新内容(通过与历史数据的比较),同时由于已经进行了初始化的预处理,此处直接提取更新内容中的项目、字段或订阅关键词即可,判断更新内容的合规性,不合规则退回重新处理,合规则直接基于项目、字段或订阅关键词将数据对应至数据集的指定位置即可。

本实施例中,每次更新后需要更新关联(有向图),可以据此设置合理的更新策略,如固定时间段、固定频率等。

实施例5

在实施例3的基础上,步骤1.3包括以下步骤:

步骤1.3.1:辅助单元对所述任务需求或数据订阅需求进行规则化处理,提取对应的项目、字段或订阅关键词;

步骤1.3.2:将提取的项目与一个或多个主题库进行匹配,获得待提取数据的主题库集;

步骤1.3.3:基于项目、字段或订阅关键词进行主题库集中每个主题库数据的调取,并调取关联度大于预设值的数据对应的记录作为待分发数据;

步骤1.3.4:对待分发数据进行去重,完成处理。

本实施例中,辅助单元的工作是通过提取的项目、字段或订阅关键词对应至具体的主题库,随后从主题库中提取对应的数据作为第一批数据,然后基于已经提取的第一批数据选择关联度大于预设值的第二批数据进行打包,最后去重,获得足够量的数据信息反馈至用户。

本实施例中,在实际应用中,对于所有的数据需要进行排序,将最后输出的第一批数据置前,并可以基于项目、字段或订阅关键词进行排序,将第二批数据置后,供用户参考。

实施例6

在实施例2的基础上,所述数据质量监管单元对输入端输入的数据和输出端输出的数据提取特征向量并计算相似度,记作A;所述数据质量监管单元获取用户反馈分值,折算至0到1间的数值,记作B;基于A和B的差值调节辅助单元和/或主题库。

建立基于所述数据质量监管单元的用户引导单元,用于基于数据质量监管单元输出的数据质量引导用户进行任务需求输入或数据订阅的优化。

本实施例中,对输入端输入的数据和输出端输出的数据提取特征向量并计算相似度可以以BERT模型实现,通过提取两端的表达特征,并计算余弦相似度,获得A;

对于用户反馈分值,由于其维度比较多样化,可以以赋权的方式进行计算并折算到0-1的数值,亦可以以单个维度分别计算,获得B的集合;

基于A和B的差值,如提示输出无关数据过多时,则调节辅助单元的规则化处理模式、输出处理阶段的处理规则;如提示数据命中率较低时,则需要调节主题库的配置。

本实施例中,基于数据质量监管单元建立用户引导单元,可以通过获取用户的输入动作及实施输入内容对用户输入的任务需求和数据订阅明细进行语句和方案上的实时引导,便于用户以最匹配的方案获得最优的数据。

本发明还涉及一种所述的基于主题库的批量数据管理系统的应用,应用于多源-多目标场景下的批量数据传输。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 一种校本资源题库数据管理系统
  • 一种基于网络题库的线上考试和网上阅卷智能化管理系统
技术分类

06120116586330